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Beschreibung 

Verfahren unci Computer -Anordnung zum Bereitstellen von 
Datenbankinformation einer ersten Datenbank und Verfahren zum 
rechnergestiitzten Bilden eines statistischen Abbildes einer 
Datenbank 

Die Erfindung betrifft ein Verfahren und eine Computer- 
Anordnung zum Bereitstellen von Datenbankinformation einer 
ersten Datenbank und ein Verfahren zum rechnergestiitzten 
Bilden eines statistischen Abbildes einer Datenbank. 

Heutzutage sind kaum noch VorgSnge zu beobachten, die ohne 
Untersttitzung eines Computers ablaufen. Haufig wird bei 
Einsatz eines Computers im Rahmen eines Prozesses der Prozess 
mittels des Computers tlberwacht Oder zumindest 
prozessspezif ische Daten von dem Computer auf gezeichnet- und 
protokolliert, beispielsweise Daten tiber die einzelnen 
Prozessschritte des Prozesses und deren Ergebnisse oder 
Zwischenergebnisse . 

Beispielsweise wird tiblicherweise in einem Call Center im 
Detail festgehalten, wann welcher Anruf in dem Call Center 
eingegangen ist, wann der jeweilige eingegangene Anruf von 
einem Mitarbeiter des Call Centers bearbeitet wurde, zu 
welchem anderen Mitarbeiter des Call Centers moglicherweise 
weitergeleitet worden ist, etc. 

Ferner werden tiblicherweise in der Prozess-Automatisierung 
* umfangreiche Protokoll-Dateien gebildet, in denen Daten tiber 
die einzelnen Prozesse gespeichert werden. 

Ein drittes Anwendungsgebiet ist in der Telekommunikation zu 
sehen; so werden beispielsweise in den Switches eines 
Mobilfunknetzes Protokolldaten tiber den in den Switches 
auftretenden Datenverkehr ermittelt und gespeichert • 
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SchlieJilich werden auch in einem Webserver-Computer haufig 
Protokolldaten tiber den Datenverkehr, beispielsweise liber die 
Zugrif f shaufigkeit auf von dem Webserver-Computer 
bereitgestellter Information, gebildet. 

Treten im Verlauf eines Prozesses Probleme auf, so wird 
Ublicherweise der Betreiber der Anlage, auf welcher der 
Prozess ausgeftihrt wird, vor Ort versuchen, die Ursache fur 
die aufgetretenen Probleme zu finden. Gelingt ihm das nicht, 
so wendet er sich meist an den Hersteller der Anlage. 
Herstellerseitig ist es zum Auffinden der Problemursache 
erforderlich, auf die protokollierten Prozessdaten, allgemein 
auf die auf gezeichneten Protokolldaten der Anlage 
zuzugreifen. Derzeit hat eine die Protokolldaten enthaltende 
Protokolldatei eine erhebliche Grofie, haufig in der 
GroJJenordnung einiger Dutzend GByte. Eine solche 
Protokolldatei lasst sich aus diesem Grund nur schlecht zu 
dem Hersteller der Anlage, beispielsweise unter Verwendung 
von FTP (File Transfer Protocol) tlbertragen. Selbst wenn 
ausreichend schnelle Kommunikationsverbindungen zur Verftigung 
stehen, ist es fur den Hersteller einer Anlage schwierig und 
teuer, fur eine groftere Anzahl von Kunden die 
Protokolldateien zu speichern und zu verarbeiten, 

Auch in anderen Bereichen besteht der Bedarf , zu 
Analysezwecken groiie Datenmengen zu Ubertragen, " 
beispielsweise tiberall dort, wo grofle Datenbanken offentlich 
zuganglich sind, um der Of f entlichkeit das Forschen unter 
Verwendung der Datenbankdaten zu ermoglichen. Die 
Datenbankdaten konnen Daten sein aus (of f entlichen) 
Forschungsprojekten (beispielsweise Daten einer Gen-Datenbank 
oder einer Protein-Datenbank) , Wetterdaten, demographische 
Daten, Daten, die zum Zwecke einer Rasterf ahndung (in diesem 
Fall nur einem begrenzten Kreis befugter Nutzer) zur 
Verftigung gestellt werden sollen. Insbesondere .der Bereich 
der Biotechnologie ist heutzutage von erheblichem Interesse. 
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Es existieren eine Vielzahl von Datenbanken in diesem 
Bereich. 

Ferner ist es insbesondere aus Grttnden der Datensicherheit 
haufig wtinschenswert, nicht alle konkreten Inf ormationen der 
Datenbankdaten weiterzugeben. 

Eine bekannte Moglichkeit, Inf ormationen einer Datenbank tiber 
ein Kommunikationsnetz von einem Server-Computer einem 
Client-Computer bereitzustellen, besteht darin, Diagnose- 
oder Statistik-Werkzeuge zur Analyse der in den Datenbanken 
enthaltenen Daten direkt serverseitig zu installieren, welche 
beispielsweise unter Verwendung eines Web-Servers, welcher 
auf dem Server-Computer installiert ist und eines auf einem 
Client-Computer installierten Web-Browser-Programms genutzt 
werden kOnnen. Hierftir kOnnen so genannte OLAP-Werkzeuge (On- 
Line Analytical Processing-Werkzeuge) eingesetzt werden, 
deren Betrieb allerdings sehr aufwendig und teuer ist. Bei 
einigen OLAP-Werkzeugen ist die zu verarbeitende Datenmenge 
sogar schon so grofi geworden, so dass die OLAP-Werkzeuge 
versagen. 

Ferner ist es fur den Betreiber einer Anlage sehr unbequem 
und teuer, diese Werkzeuge serverseitig zu betreiben, da das 
unmittelbare Interesse an der Information ja bei dem Nutzer 
des Client-Computers liegt und haufig der Betreiber der 
Anlage nicht bereit ist, die zusatzlichen Kosten fUr die 
Bereitstellung und Wartung des Server-Computers und der OIAP- 
Werkzeuge zu tragen. 

Weiterhin ist bei einer grolien Anzahl von Client-Computern 
und einer grolien Zahl von Anfragen an den Server-Computer die 
Beantwortung aller Anfragen sehr rechenaufwendig, weshalb die 
Hardware des Server-Computers haufig unakzeptabel teuer ist. 

Der Erfindung liegt das Problem eines effizienten Zugriffs 
auf den Inhalt einer Datenbank tiber ein Kommunikationsnetz 
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unter Wahrung der Vertraulichkeit der in der Datenbank 
enthaltenen Daten zugrunde. 

Das Problem wird durch ein Verfahren und eine Computer- 
Anordnung zum Bereitstellen von Datenbankinf ormation einer 
ersten Datenbank sowie durch ein Verfahren zum 
rechnergestutzten Bilden eines statistischen Modells einer 
Datenbank mit den Merkmalen gemaii den unabhangigen 
Patentansprtichen gelost. 

Das allgemeine Szenario, welches von der Erfindung adressiert 
wird, ist auf folgende Weise charakterisiert : An einem ersten 
Ort A steht eine grofie Menge von in einer Datenbank 
gespeicherten Daten zur VerfUgung. An einem zweiten Ort B 
will jemand diese zur VerfUgung stehenden Daten nutzen. Der 
Nutzer an dem Ort B ist weniger an einzelnen Datensatzen 
interessiert, sondern in erster Linie an der die 
Datenbankdaten charakterisierenden Statistik. 

Bei einem Verfahren zum rechnergestutzten Bereitstellen von 
Datenbankinformation einer ersten Datenbank wird fur die 
erste Datenbank ein erstes statistisches Abbild 
beispielsweise in Form eines gemeinsamen 
Wahrscheinlichkeitsmodells gebildet. Dieses Abbild bzw. 
Modell reprasentiert die statistischen Zusammenhange der in 
der ersten Datenbank enthaltenen Datenelemente . Das erste 
statistische Abbild wird in einem Server-Computer 
gespeichert. Ferner wird das erste statistische Abbild von 
dem Server-Computer uber ein Kommunikationsnetz zu einem 
Client-Computer ubertragen und das empfangene erste 
statistische Abbild wird von dem Client-Computer 
weiterverarbeitet . 

Eine Computer-Anordnung zum rechnergestutzten Bereitstellen 
von Datenbankinformation einer ersten Datenbank weist einen 
Server-Computer und einen Client-Computer auf, die 
miteinander mittels eines Kommunikationsnetzes gekoppelt 
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sind. In dem Server-Computer ist ein erstes statistisches 
Abbild, welches ftlr eine erste Datenbank gebildet ist, 
gespeichert. Das erste statistische Abbild beschreibt die 
statistischen Zusammenhange der in der ersten Datenbank 
5 enthaltenen Datenelemente . Der Client-Computer ist derart 
eingerichtet, dass mit ihm eine Weiterverarbeitung, 
beispielsweise eine Analyse, des von dem Server-Computer liber 
das Kommunikationsnetz zu dem Client-Computer ttbertragenen 
ersten statistischen Abbildes moglich ist, 

10 

Bei einem Verfahren zum rechnergesttttzten Bilden eines 
statistischen Modells einer Datenbank, welche eine Vielzahl 
von Datenelementen aufweist, kann ein so genanntes EM- 
Lernverf ahren (Expectation Maximisation-Lernverf ahren) auf 
15 die Datenelemente durchgefiihrt werden, sowie auch alternativ 
andere Lernverf ahren. Die Struktur des gemeinsamen (alle 
Felder in der Datenbank umfassenden) 

Wahrscheinlichkeitsmodells kann im Rahmen des allgemeinen 
Formalismus der Bayesianischen Netze (synonym auch Kausale 

20 Netze oder allgemeine Graphische Probabilistische Netze) 
festgelegt werden. Hierbei wird die Struktur durch einen 
gerichteten Graphen festgelegt. Der gerichtete Graph weist 
Knoten und die Knoten miteinander in Bezug setzende Kanten 
auf, wobei die Knoten vorgebbare Dimensionen des Modells bzw. 

25 des Abbildes entsprechend den in der Datenbank vorhandenen 
Werten beschreiben. Einige Knoten konnen dabei auch nicht 
beobachtbaren Grofien (so genannten latenten Variablen, wie 
sie beispielsweise in [1] beschrieben sind) entsprechen. Im 
Rahmen eines allgemeinen EM-Lernverf ahrens werden fehlende 

30 oder nicht beobachtbare Gr5J3en durch Erwartungswerte oder 
erwartete Verteilungen ersetzt. Im Rahmen des 
erf indungsgema.fi en verbesserten EM-Lernverf ahrens werden nur 
die Erwartungswerte ermittelt zu den fehlenden Grofien, deren 
Eltern-Knoten beobachtbare Werte aus der Datenbank sind. 

35 

Als statistisches Abbild wird vorzugsweise ein statistisches 
Modell verwendet. 
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Unter einem statistischen Modell ist in diesem Zusammenhang 
jedes Modell zu verstehen, das alle statistischen 
Eusammenhange bzw. die gemeinsame Hauf igkeitsverteilung der 
Daten einer Datenbank darstellt (exakt oder approximativ) , 
beispielsweise ein Bayesianisches (oder Kausales) Netz, ein 
Markov Netz oder allgemein ein Graphisches Probabilistisches 
Modell, ein „Latent Variabel Model" 1 , ein statistisches 
Clustering-Modell oder ein trainiertes ktinstliches Neuronales 
Netz. Das statistische Modell kann somit als ein 
vollstandiges, exaktes oder approximatives Abbild der 
Statistik der Datenbank aufgefasst werden. 

Im Zusammenhang der Weiterverarbeitung des statistischen 
Modells durch den Client-Computer bedeutet dies, dass eine 
Analyse nicht wie gemafl dem Stand der Technik basierend auf 
den Datenelementen der Datenbank selbst oder basierend auf 
einem OLAP-Werkzeug erfolgt. Stattdessen werden alle 
gewtinschten (bedingten) Wahrscheinlichkeitsverteilungen aus 
dem gemeinsamen Wahrscheinlichkeitsmodell, dem statistischen 
Modell, ermittelt. 

Diese erf indungsgemaJie Vorgehensweise hat insbesondere die 
folgenden Vorteile: 

• Verglichen mit der Datenbank selbst ist das statistische 
Modell sehr klein, da das statistische Modell ein 
komprimiertes Abbild der Statistik der Datenbank ist 
(nicht der einzelnen EintrSge in der Datenbank), 
vergleichbar einem gemafi dem JPEG-Standard komprimiertem 
digitalen Bild, welches ein komprimiertes aber 
approximatives Abbild des digitalen Bildes darstellt; 

• Das statistische Modell selbst kann mit wesentlich 
geringerem Hardware-Aufwand sehr schnell evaluiert 
werden. 

Je nach verwendetem Verfahren zum Trainieren des 
statistischen Modells kann eine erhebliche Kompression der 
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Datenbank erzielt werden. Unter Verwendung eines in der 
erzielbaren Kompression skalierbaren Lernverf ahrens wurde 
eine Kompression von bis zu einem Faktor 1000 erreicht, wobei 
die in dem statistischen Modell enthaltene Information 
5 qualitativ ausreichend war. Die komprimierten statistischen 
Modelle lassen sich somit sehr einfach beispielsweise mittels 
elektronischer Post (E-Mail), FTP (File Transfer Protocol) 
oder anderer Kommunikationsprotokolle zur Datentlbertragung 
von dem Server-Computer zu dem Client-Computer tlbertragen. 
10 Das Ubertragene statistische Modell kann somit clientseitig 
zur nachf olgenden statistischen Analyse genutzt werden. 

Der Server-Computer und der Client-Computer konnen iiber ein 
beliebiges Koramunikationsnetz, beispielsweise iiber ein 
15 Festnetz oder tiber ein Mobilfunknetz miteinander zur 
Ubertragung des statistischen Modells gekoppelt sein. 

Die Erfindung ist zum Einsatz in jedem Bereich geeignet, in 
dem es wtinschenswert ist, nicht die gesamten Daten einer 
20 groJien Datenbank zu tlbertragen, sondern nur eine moglichst 
geringe Datenmenge zu tlbertragen bei Erhalt eines m5glichst 
groJien Informationsgehalts der tibertragenen Daten 
hinsichtlich der Datenbank, die von den tibertragenen Daten 
beschrieben werden. 

25 

Ein Vorteil der Erfindung ist insbesondere darin zu sehen, 
dass es ermoglicht wird, in einem hohen Mafie die 
Vertraulichkeit von individuellen Eintragen in die Datenbank 
zu gewahrleisten, da nicht alle Datenelemente der Datenbank 
30 selbst tlbertragen werden, sondern nur eine statistische 
Reprasentation der Datenelemente der Datenbank, womit 
clientseitig eine statistische Analyse der Datenbank moglich 
wird, ohne dass clientseitig die konkreten, m5glicherweise 
geheim zu haltenden Daten verftigbar sind. 

35 

Ferner kann ein Betreiber beispielsweise einer technischen 
Anlage die statistischen Inhalte der von ihm geftihrten 



WO 2004/044772 




:P2003/011655 



8 

Datenbank einem Nutzer eines Client-Computers unkompliziert 
und in der Regel ohne Verletzung von Datenschutzrichtlinien, 
beispielsweise mittels eines auf dem Server-Computer 
installierteii Web-Servers bereitgestellt werden, in welchem 
5 Fall die statistischen Modelle mittels eines auf einem 

Client-Computer installierten Web-Brows er-Programms abgerufen 
werden kSnnen. 

Die Erfindung kann mittels Software, das heifit mittels eines 
10 Computerprogramms, in Hardware, das heifit mittels einer 
speziellen elektronischen Schaltung, oder in beliebig 
hybrider Form, das heifit teilweise in Software und teilweise 
in Hardware, realisiert werden. 

15 Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den 
abhangigen Anspriichen. 

Die folgenden Ausgestaltungen der Erfindung betreffen die 
Verfahren und die Computer-Anordnung. 

20 

Gemafi einer Ausgestaltung der Erfindung ist es vorgesehen, 
unter Verwendung des ersten statistischen Modells und 
Datenelementen einer in dem Client-Computer gespeicherten 
zweiten Datenbank ein statistisches Gesamt-Modell bzw. ein 
25 statistisches Gesamt -Abbild zu bilden, welches zumindest 

einen Teil der in dem ersten statistischen Abbild und in der 
zweiten Datenbank enthaltenen statistischen Information 
aufweist . 

30 Gemafi einer anderen Ausgestaltung der Erfindung ist es 
vorgesehen, fur eine zweite Datenbank ein zweites 
statistisches Abbild bzw. ein zweites statistisches Modell zu 
bilden, welches die statistischen Zusammenhange der in der 
zweiten Datenbank enthaltenen Datenelemente reprasentiert . 

35 Das zweite statistische Abbild wird ttber das 

Kommunikationsnetz zu dem Client-Computer tibertragen und 
unter Verwendung des ersten statistischen Abbildes und des 



WO 2004/044772 




1P2003/011655 



9 

zweiten statistischen Abbildes wird von dem Client-Computer 
ein statistisches Gesamt -Abbild gebildet, welches zumindest 
einen Teil der in dem ersten statistischen Abbild und in dem 
zweiten statistischen Abbild enthaltenen statistischen 
5 Information aufweist. 

Diese Ausgestaltungen der Erfindung tragen beispielsweise 
folgendem allgemeinen erf indungsgemaJJen Szenario Rechnung, 
dass fast jeder Vorgang in einem Unternehmen, insbesondere 

10 auch jeder Kundenkontakt und jede Bestellung und Auslief erung 
eines Produktes mit Rechneruntersttitzung ablauft. In diesem 
Zusammenhang werden tiblicherweise die Vorgange in dem 
Unternehmen oder jede Aktion eines Kunden im Detail in einer 
Protokolldatei auf gezeichnet, beispielsweise im. Rahmen von so 

15 genannten Customer Relationship Management Systemen (CRM- 
Systemen) oder im Rahmen von Supply Chain Management 
Systemen. Die protokollierten Daten stellen far viele 
Unternehmen ein erhebliches Vermogen dar. Dementsprechend 
zeigt sich ein Trend der Unternehmen, dass sie ihre Daten, 

20 beispielsweise Daten liber Kunden, in „Wissen tober Kunden* 
umsetzen. Es hat sich jedoch gezeigt, dass die in einem 
Unternehmen vorhandenen Informationen beispielsweise uber 
einen Kunden (aber auch liber den Betrieb einer technischen 
Anlage oder ahnlichem) nur sehr einseitig ist. H^ufig fehlen 

25 wesentliche Attribute aller oder einzelner Kunden oder 
technischen Anlagen, die z.B. ein Zielgruppen-gerechtes 
Marketing, allgemein eine qualitativ hochwertige 
Datenauswertung, erst ermoglichen. Ein Beispiel im Rahmen der 
Kundeninformation ist in dem Alter des Kunden zu sehen oder 

30 in deren Familienstand sowie die Anzahl der Kinder, Es hat 
sich jedoch herausgestellt, dass bei Zusammenftihren der 
Information mehrerer Datenbanken, seien es Kundendatenbanken 
oder auch Datenbanken mit Informationen Uber technische 
Prozesse, ein erheblich genaueres und vollstandigeres „Bild* 

35 (im Fall des Marketings, ein „Kundenbild* ) ergeben. Die 

gemeinsame Nutzung der Datenbanken bzw. des Wissens mehrerer 
Unternehmen wtlrde somit ftir die nachfolgende Auswertung eine 
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erhebliche Verbesserung ermoglichen. Der Austausch von Daten 
tiber Unternehmensgrenzen hinweg stellt aber aus folgenden 
Grtinden keine zufrieden stellende Losung fUr das oben 
beschriebene Problem dar: 
5 • Unternehmen sind tiblicherweise nicht bereit, Details 
iiber ihre Kunden oder ihre technischen Prozesse an 
andere Unternehmen weiterzugeben. Der Kundenstamm eines 
Unternehmens und damit die Detail-Daten tlber die Kunden 
stellen haufig ein wesentliches Unternehmensvermogen 
10 dar. 

• Ein Austausch der Datenbankdaten bedeutet technisch 
auch, dass groiSe Mengen an Daten tibertragen und 
gespeichert werden iritis sen. 

• Aus datenschutzrechtlichen Grtinden sind dem Austausch 
15 von Datenbankdaten, insbesondere von personenbezogenen 

Daten enge Grenzen gesetzt. 

• Selbst wenn Daten zwischen zwei Unternehmen ausgetauscht 
werden, entsteht ohne zusatzliche Mafinahmen zunachst nur 
ftir die Kunden, die in beiden Unternehmen bekannt sind, 

20 ein verbessertes Bild. Ftir Kunden, die nur in einem 

Unternehmen bekannt sind, bleiben die Daten und damit 
das Bild tiber diese Kunden weiterhin unvollstandig. 

Zusammenf assend ergeben sich somit anschaulich folgende 
25 erf indungsgemaiie Aspekte: 

• Das Wissen tiber Kunden oder Prozesse oder Anlagen, 
allgemein die in einer Datenbank enthaltene Information, 
wird so dargestellt, 

• dass es stark komprimiert und damit technisch auf 
30 einfachere Weise zwischen den Computern 

austauschbar ist, und 

• dass wesentliche Zusammenhange dargestellt werden, 
dass jedoch Detail-Inf ormationen nur in einem 

def inierbaren Mali wiederzuf inden sind, so dass 
35 Unternehmen mit weniger Bedenken solche 

Informationen austauschen und keine 
Datenschutzrichtlinien verletzt werden. 
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• Die auf diese Weise ciargestellte Information aus 

verschiedenen Quellen (aus verschiedenen Datenbanken) 
kann zu einem Gesamtbild kombiniert werden, welches von 
alien teilnehmenden Unternehmen genutzt werden kann. 

Durch die oben beschriebenen Ausgestaltungen wird es somit 
nunmehr moglich, unter Wahrung des Datenschutzes unter 
Reduzierung der benotigten Bandbreite zur tJbertragung der 
statistischen Information, diese den Nutzern bereitzustellen, 
welche clientseitig die statistischen Modell zu einem 
Gesamtbild, dem Gesamt -Modell, zusammenftthren kSnnen. 

Gemafi einer anderen Ausgestaltung der Erfindung werden die 
statistischen Modell in unterschiedlichen Server-Computern 
gespeichert und jeweils von dort tiber ein Kommunikationsnetz 
zu dem Client-Computer tibertragen. 

In diesem Zusammenhang ist anzumerken, dass die statistischen 
Modelle von den Server-Computer (n) gebildet werden konnen, 
alternativ auch von anderen, moglicherweise speziell dazu 
eingerichteten Computern, in welchem Fall die gebildeten 
statistischen Modellen noch zu den Server-Computer (n) , 
beispielsweise tiber ein lokales Netz, tibertragen werden. 

Somit kOnnen die statistischen Modelle in einem heterogenen 
Netz, beispielsweise im Internet, weltweit auf sehr einfache 
Weise bereitgestellt werden. 

Mindestens eines der statistischen Modelle kann mittels eines 
skalierbaren Verfahrens gebildet werden, mit dem der 
Kompressionsgrad des statistischen Modells verglichen mit den 
in der jeweiligen Datenbank enthaltenen Datenelementen 
einstellbar ist. 

Mindestens eines der statistischen Modelle kann ferner 
mittels eines EM-Lernverf ahrens oder Varianten davon (wie sie 
beispielsweise in [2] beschrieben sind) oder mittels eines 
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gradientenbasierten Lernverf ahrens gebildet werden. 
Beispielsweise kann das so genannte APN-Lernverfahren 
(Adaptive Probabilistic Network-Lernverf ahren) als 
gradientenbasiertes Lernverf ahren eingesetzt werden. 
Allgemein konnen alle Likelihood-basierten Lernverf ahren oder 
Bayesianische Lernverf ahren genutzt werden, wie sie 
beispielsweise in [3] beschrieben sind. Die Struktur der 
gemeinsamen Wahrscheinlichkeitsmodelle kann dabei in Form 
eines Graphischen Probabilistischen Modells (eines 
Bayesianischen Netzes, eines Markov Netzes oder einer 
Kombination davon) spezifiziert werden. Einem Spezialfall 
dieses allgemeinen Formalismus entsprechen so genannte Latent 
Variable Models oder statistische Clustering-Modelle . Daruber 
hinaus kann jedes Verf ahren zum Lernen nicht nur der 
Parameter, sondern auch der Struktur Graphischer 
Probabilistischer Modelle aus verfUgbaren Datenelementen 
genutzt werden, beispielsweise jedes beliebige 
Struktur lernverf ahren [4] und [5] . 

Die erste Datenbank oder/und die zweite Datenbank kann/k5nnen 
Datenelemente aufweisen, welche mindestens eine technische 
Anlage beschreiben. Die die mindestens eine technische Anlage 
beschreibenden Datenelemente kdnnen zumindest teilweise an 
der technischen Anlage gemessene Werte darstellen, welche das 
Betriebsverhalten der technischen Anlage beschreiben. 

GemaB einer Ausgestaltung der erf indungsgemaBen Computer- 
Anordnung ist in dem Client- Computer eine zweite Datenbank 
mit Datenelementen gespeichert. Der Client-Computer weist 
eine Einheit zum Bilden eines statistischen Gesamt-Modells 
unter Verwendung des ersten statistischen Modells und den 
Datenelementen der zweiten Datenbank, auf , wobei das 
statistische Gesamt-Modell zumindest einen Teil der in dem 
ersten statistischen Modell und in der zweiten Datenbank 
enthaltenen statistischen Information auf weist. 
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GemaB einer anderen Ausgestaltung der erf indungsgemaBen 
Computer-Anordnung ist ein zweiter Server-Computer 
vorgesehen, in dem ein zweites statistisches Modell, welches 
ftir eine zweite Datenbank gebildet ist, gespeichert ist, 
wobei das zweite statistische Modell die statistischen 
Zusammenhange der in der zweiten Datenbank enthaltenen 
Datenelemente reprasentiert . Der Client-Computer ist mittels 
des Kommunikationsnetzes ebenfalls mit dem zweiten Server- 
Computer gekoppelt. Der Client-Computer weist eine Einheit 
zum Bilden eines statistischen Gesamt-Modells unter 
Verwendung des ersten statistischen Modells und des zweiten 
statistischen Modells, auf , wobei das statistische Gesamt- 
Modell zumindest einen Teil der in dem ersten statistischen 
Modell und in dem zweiten statistischen Modell enthaltenen 
statistischen Information aufweist. 

Ein AusfUhrungsbeispiel der Erfindung ist in den Figuren 
dargestellt und wird im Folgenden naher erl&utert. 

Es zeigen 

Figur 1 ein Blockdiagramm einer Computer-Anordnung gemafi 
einem ersten AusfUhrungsbeispiel der Erfindung; 

Figur 2 ein Blockdiagramm einer Computer-Anordnung gemaB 
einem zweiten AusfUhrungsbeispiel der Erfindung; 

Figur 3 ein Blockdiagramm einer Computer-Anordnung gemaB 
einem dritten AusfUhrungsbeispiel der Erfindung; 

Figur 4 ein Blockdiagramm einer Computer-Anordnung gemaB 

einem vierten AusfUhrungsbeispiel der Erfindung; und 

Figur 5 ein Blockdiagramm einer Computer-Anordnung gemaB 
einem fUnften AusfUhrungsbeispiel der Erfindung • 
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Fig.l zeigt eine Compute r-Anordnung 100 gemaB einem ersten 
Ausftlhrungsbeispiel der Erfindung. 

Die Computer-Anordnung 100 wird in einem Call Center 
5 eingesetzt. Die Computer-Anordnung 100 weist eine Vielzahl 
von Telefon-Endgeraten 101 auf, welche mittels 
Telefonleitungen 102 mit einem Call-Center-Computer 103, 104, 
105 verbunden sind. In dem Call Center werden die 
Telefonanrufe von Mitarbeitern des Call Centers 

10 entgegengenommen und die Bearbeitung der eingehenden 

Telefonanrufe, insbesondere der Zeitpunkt des eingehenden 
Anrufs, die Dauef, eine Angabe uber den Mitarbeiter, der den' 
Anruf entgegengenommen hat, ein Angabe uber den Grund des 
Anrufs sowie die Art der Bearbeitung des Anrufes oder auch 

15 beliebige andere Angaben werden von den Call-Center-Computern 
103, 104, 105 auf gezeichnet. 

Jeder Call-Center-Computer 103, 104, 105 weist auf 

• eine erste Eingangs-/Ausgangsschnittstelle 106, 107, 108 
20 zum dffentlichen Telefonnetz zur Entgegennahme des 

jeweiligen Telefonanruf es, 

• einen Prozessor 109, 110, 111, 

• einen Speicher 112, 113, 114, und 

• eine zweite Eingangs-/Ausgangsschnittstelle 115, 116, 
25 H7 zu einem lokalen Netzwerk 121 des Call Centers. 

Die oben genannten Komponenten innerhalb jedes Call-Center- 
Computers 103, 104, 105 sind mittels eines Computerbusses 
118, 119, 120 miteinander gekoppelt. 

30 

Die Call-Center-Computer 103, 104, 105 sind mittels des 
lokalen Netzwerkes 121 mit einem Server-Computer 122 
gekoppelt. Der Server- Computer 122 weist eine erste Eingangs- 
/Ausgangsschnittstelle 123 zu dem lokalen Netzwerk 121, einen 
35 Speicher 124, einen Prozessor 127 sowie eine zur 

Kommunikation uber das Internet eingerichtete zweite 
Eingangs-/Ausgangsschnittstelle 128 auf, welche Komponenten 
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mittels eines Computerbusses 129 miteinander gekoppelt sind. 
Der Server-Computer 122 dient gemaii diesem 

Ausftihrungsbeispiel als Web-Server-Computer, wie im Folgenden 
noch naher erlautert wird. 

Die von den Call-Center-Computern 103, 104, 105 
aufgezeichneten Daten werden tiber das lokale Netzwerk 121 zu 
dem Server-Computer 122 tibertragen und dort in einer 
Dateribank 12 6 gespeichert. 

Ferner ist in dem Speicher 124 noch ein statistisches Modell 
125 gespeichert, welches die statistischen Zusammenhange der 
in der Dateribank 126 enthaltenen Datenelemente reprasentiert . 

Das statistische Modell 125 wird unter Verwendung des an sich 
bekannten EM-Lernverf ahrens gebildet. Andere alternative 
bevorzugt eingesetzte Verfahren zum Bilden des statistischen 
Modells 125 werden im Folgenden noch im Detail beschrieben. 

GemSfi diesem Ausftihrungsbeispiel der Erfindung wird das 
statistische Modell 125 automatisch in regelmafligen 
Zeitintervallen erneut, jeweils basierend auf den aktuellsten 
Daten der Dateribank 12 6, gebildet. 

Das statistische Modell 125 wird von dem Server-Computer 122 
automatisch zur Ubertragung an einen oder an mehrere Client- 
Computer 132 bereitgestellt . Der Client-Computer 132 ist Ober 
eine zweite Kommunikationsverbindung 131, beispielsweise 
einer Kommunikationsverbindung, welche eine Kommunikation 
gemali dem TCP/IP-Kommunikationsprotokoll ermoglicht, mit der 
zweiten Eingangs-/Ausgangsschnittstelle 128 des Server- 
Computers 122 gekoppelt. 

Der Client-Computer 132 weist ebenfalls eine Eingangs- 
/Ausgangsschnittstelle 133, eingerichtet zur Kommunikation 
gemaa dem TCP/IP-Kommunikationsprotokoll auf sowie einen 
Prozessor 134 und einen Speicher 135. 
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Das in einer elektronischen Nachricht 130 von dem Server- 
Computer 122 an den Client-Computer 132 tibertragene 
statistische Modell 125 wird in dem Speicher 135 des Client- 
Computers 132 gespeichert. Der Benutzer des Client-Computers 
132 ftthrt nunmehr eine beliebige, nutzerspezif ische 
statistische Analyse auf das statistische Modell 125 und 
damit „indirekt* auf die Daten der Datenbank 12 6 aus, ohne 
dass die grofie Datenbank 12 6 an den Client-Computer 132 
tibertragen werden muss, 

Ziel der clientseitigen statistischen Analyse kann eine 
Optimierung des Call Centers sein. Gemafi diesem 
Ausftihrungsbeispiel werden insbesondere Analysen hinsichtlich 
der Beantwortung der folgenden Fragen durchgefiihrt : 

„Nach welcher Wartezeit in einer Warteschlange des Call 
Centers gibt ein Telef onanruf er tiblicherweise auf?* 

„Gibt es regionale Oder tageszeitliche AbhSngigkeiten 
zwischen den in dem Call Center eingehenden Telef onanruf en?* 

„Zu welchem Zeitpunkt und in Abhangigkeit welcher anderen 
Merkmale treten welche Anfragen auf und wie viele Mitarbeiter 
sollten dementsprechend in dem Call Center bereitstehen?* 

„Welche Routing-Strategien ftlhren zu welchen Ergebnissen?* 

Somit werden die Analysen zur Beantwortung der oben genannten 
Fragen von dem Benutzer des Client-Computers 132 
durchgefiihrt. Anschliefiend werden dem Betreiber des Call 
Centers aus den Analyseergebnissen geeignete Mafinahmen zur 
optimierten Betreiben des Call Centers gegeben. 

Fig. 2 zeigt eine Computer-Anordnung 200 gemafi einem zweiten 
Ausftihrungsbeispiel der Erfindung. 
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Die Computer-Anordnung 200 wird im Bereich der Biotechnologie 
eingesetzt. 

Die Computer-Anordnung 200 weist einen Server-Computer 201 
auf, der einen Speicher 2 02, einen Prozessor 2 03 sowie eine 
zur Kommunikation gemafi den TCP/IP-Protokollen eingerichtete 
Eingangs-/Ausgangsschnittstelle 204 auf. Die Komponenten sind 
mittels eines Computerbusses 205 miteinander gekoppelt. 

In dem Speicher 202 ist eine Datenbank 206 mit genetischen 
Sequenzen oder Aminosauresequenzen zusammen mit den Sequenzen 
zugeordneten Zusatzinf ormationen gespeichert. 

Ftir einen Forscher, gemafi diesem Ausftihrungsbeispiel ein 
Nutzer eines der Client-Computer 209, 210, 211, der die 
Eigenschaften einer (neuen) Sequenz untersucht, ist es haufig 
von erheblichem Interesse, Sequenzen mit gleichen oder 
ahnlichen Eigenschaften zu finden. Zum Durchsuchen der von 
dem oder den Server-Computern 201 offentlich bereitgestellten 
Datenbanken stellt der Forscher mittels des uber ein 
Kommunikationsnetz 208 mit dem Server-Computer 201 
gekoppelten Client-Computers 209, 210, 211 entsprechende 
Such-Anfragen an den oder die Server-Computer 202. In dem 
Server-Computer 201 ist ein statistisches Modell 207 auf die 
gleiche Weise wie gemafi dem ersten Ausftihrungsbeispiel 
gebildet worden und dort gespeichert. 

Jeder Client-Computer 209, 210, 211 weist auf 

• eine zur Kommunikation gemafi den TCP/IP-Protokollen 
eingerichtete Eingangs-/Ausgangsschnittstelle 212, 213, 
214, 

• einen Prozessor 215, 216, 217, 

• einen Speicher 218, 219, 220. 

Nach erfolgter Anfrage eines Client-Computers 209, 210, 211 
tlbertragt der Server-Computer 201 das statistische Modell 206 
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an den Client-Computer 209, 210, 211 in einer elektronischen 
Nachricht 221, 222, 223. 

Nach Empfang des statistischen Modells 206 wird von dem 
Nutzer des Client-Computers 209, 210, 211 die von ihm zu 
untersuchende Sequenz mit dem statistischen Modell 206 
verglichen. Ergebnis einer statistischen Analyse ist eine 
Angabe, wie viele ausreichend ahnliche Sequenzen in der 
Datenbank 206 existieren und durch welche Eigenschaf ten diese 
Sequenzen sich auszeichnen. 

Fig. 3 zeigt eine Computer-Anordnung 300 gemafi einem dritten 
Ausfiihrungsbeispiel der Erfindung. 

Die Computer-Anordnung 300 weist einen ersten Computer 301 
und einen zweiten Computer 309 auf . 

Der erste Computer 301 weist einen Speicher 302, einen 
Prozessor 303 sowie eine zur Kommunikation gemSLB den TCP/IP- 
Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 304 auf, welche mittels eines 
Computerbusses 305 miteinander gekoppelt sind. 

Der erste Computer 301 ist ein Computer eines Autohauses, 
welches in der in dem Speicher 302 gespeicherten Kunden- 
Datenbank Inf ormationen zu Vorname und Nachname der Kunden, 
tlber Wohnort und genutzten Fahrzeugtyp, nicht jedoch Uber 
Alter, Familienstand und Gehaltseingang enthalt. 

Der zweite Computer 309 weist eine zur Kommunikation gemafi 
den TCP/IP-Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 310, einen Speicher 311 und einen 
Prozessor 312 auf, welche mittels eines Computerbusses 313 
miteinander gekoppelt sind. 

Der zweite Computer 309 ist ein Computer einer mit dem 
Autohaus kooperierenden Bank. In dem Speicher 311 des zweiten 
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Computers 309 ist eine zweite Kunden-Datenbank 314 
gespeichert. In der zweiten Kunden-Datenbank 314 sind zu den 
Kunden der Bank Informationen zu Vorname und Nachname der 
Kunden, deren Wohnort, Familienstand, Alter und 
Gehaltseingang, enthalten, nicht jedoch zu dem von dem 
jeweiligen Kunden genutzten Fahrzeugtyp. Die Bank kann somit 
aus ihren gespeicherten Daten nicht ermitteln, welche 
Familien mit welchem Gehaltseingang typischerweise welche 
Autos nutzen. 

Urn diese Informationen zu erhalten, ware die Zusammenlegung 
der beiden Kunden-Datenbanken erf orderlich, was jedoch aus 
Datenschutz-rechtlichen Grtinden nicht gestattet ist und von 
den beiden Firmen ublicherweise auch nicht erwUnscht ist. 

Erfindungsgemafi wird ausgenutzt, dass in beiden Datenbanken 
das Wissen jedenfalls approximativ vorhanden ist, urn einen 
Zusammenhang beispielsweise zwischen Fahrzeugtyp und 
Gehaltseingang herzustellen. 

In dem ersten Computer wird aus diesem Grund uber die 
Datenbank ein statistisches Modell 30 6 gemafl dem EM- 
Lernverfahren gebildet. Das gegenuber der Datenbank 
komprimierte statistische Modell 306 wird zu dem zweiten 
Computer 309, welcher mit dem ersten Computer 301 
bidirektional uber das Internet 308 gekoppelt ist, in einer 
elektronischen Nachricht 307 ubertragen. 

Nach Empfang des statistischen Modells 306 wird dieses von 
dem zweiten Computer 309 mit der zweiten Kunden-Datenbank 314 
zu einem statistischen Gesamt -Modell 315 zusammengefuhrt . 

Zur Erlauterung des Zusammenfuhrens des statistischen Modells 
306 mit der zweiten Kunden-Datenbank 314 zu dem statistischen 
Gesamt-Modell 315 wird angenommen, dass zwei Partner A und B 
statistische Modelle austauschen wollen. Der Partner A 
verftigt uber die Attribute W, X, Y, welche symbolisch fur 
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eine Vielzahl beliebiger Attribute stehen. Der Partner B 
verftigt tiber die Attribute X, Y, Z. Der Partner B (gemaii 
diesem Ausfuhrungsbeispiel das Autohaus) stellt dem Partner A 
(gemaii diesem Ausfuhrungsbeispiel die Bank) ein statistisches 
Modell seiner Daten zur Verftigung, das im Folgenden rait 
Pb(X,Y,Z) bezeichnet wird. 

Ziel des Partners A ist es, aus seinen Daten zusammen mit den 
Daten seiner Datenbank ein statistisches Gesamt -Modell 
P(W,X,Y,Z) zu erstellen. 

Hierzu sind gemafl diesem Ausfuhrungsbeispiel die folgenden 
zwei Verfahren vorgesehen: 

• Der Partner A leitet aus dem statistischen Modell 

P B (X,Y,Z) ein bedingtes Modell P B (Z|X,Y) ab, urn unter 
dessen Verwendung aus den ihm bekannten Inf ormationen X 
und Y seiner Kunden die Eigenschaft Z seiner Kunden zu 
schatzen. Jeder Kunde bekommt als Wert der Variable Z 
(als Eintrag in einer zusatzlichen Spalte in der 
Datenbank) den Wert zugeordnet, der nach Mafigabe der 
Wahrscheinlichkeitsverteilung Pb(Z|X,Y) am 
wahrscheinlichsten ist, Mit den auf diese Weise 
erganzten Inf ormationen W, X, Y und Z tiber jeden Kunden 
kann der Partner A nunmehr tibliche statistische 
Analyseverfahren hinsichtlich aller vier Attribute 
anwenden oder ein gemeinsames statistisches Modell, das 
Gesamt -Modell Pb(W,X,Y,Z), welches anschaulich ein 
virtuelles gemeinsames Datenbank-Abbild darstellt, 
erstellen. 

• Statt far das Attribut Z den wahrscheinlichsten Wert zu 
erganzen, kann es in einer alternativen Vorgehensweise 
sinnvoller sein, an Stelle der fehlenden Variable Z eine 
ganze Verteilung tiber seine Werte zu erganzen und beim 
Erzeugen des statistischen Gesamt -Model Is zu verwenden. 
Um in diesem Zusammenhang teilweise fehlende Information 
statistisch konsistent im Sinne der so genannten 
Likelihood eines Modells zu handhaben, wird das EM- 
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Lernverfahren eingesetzt. In jedem Lernschritt des 
iterativen EM-Lernverf ahrens werden basierend auf den 
aktuellen Parametern Schatzungen (Expected Sufficient 
Statistics) Ober die fehlenden Grofien erzeugt, die an 
die Stelle der fehlenden Grofien treten. In dem EM- 
Lernverf ahren kann das bedingte Modell P B (Z|X,Y) dazu 
verwendet werden, auch far die Variable Z 
Erwartungswerte oder Expected Sufficient Statistics- 
Werte zu ermitteln und so dieses Lernverfahren 
konsistent zu erweitern, um ein gemeinsames Modell 
verteilter Daten zu erzeugen. 

Somit hat die Bank nunmehr die gesamte statistische 
Information verftlgbar und kann entsprechende Analysen Ober 
die Daten durchf ahren. 

In diesem Zusammenhang ist anzumerken, dass das oben 
beschriebene Szenario auch umgekehrt durchgefiihrt werden 
kann, d.h. dass die Bank ein statistisches Modell Ober die 
zweite Kunden-Datenbank erstellt und dieses an das Autohaus 
Obermittelt, welches seinerseits ein statistisches Gesamt- 
Modell bildet. Far das Autohaus ware es beispielsweise 
wanschenswert, das Alter seiner Kunden zu kennen, deren 
Familienstand und deren Gehaltseingang, oder jedenfalls eine 
Schatzung des Alters, des Familienstandes und des 
Gehaltseingangs. Basierend auf diesen Inf ormationen konnen 
den Kunden somit passende Produkte viel gezielter angeboten 
werden, beispielsweise ist einer jungen Familie mit einem 
durchschnittlichen Gehaltseingang sicherlich ein anderes Auto 
anzubieten als einem Single mit einem hohen Gehalt. 

Fig. 4 zeigt eine Computer-Anordnung 400 gemafi einem vierten 
Ausfahrungsbei spiel der Erfindung. 

Gemiili diesem AusfOhrungsbeispiel sind eine Vielzahl von n 
Computern 401, 413, 420 vorgesehen, die jeweils in 
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Computerbusses 424 miteinander gekoppelt sind. Uber die 
Kunden-Datenbank in dem n-ten Computer 420 ist ebenfalls 
mittels des EM-Lernverf ahrens ein statistisches Modell 425 
gebildet und in dem Speicher 421 des n-ten Computers 420 
5 gespeichert. 

Die Computer 401, 413, 420 sind mittels einer jeweiligen 
Kommunikationsverbindung 408 mit einer Client-Computer 409 . 

10 Der Client-Computer 409 weist einen Speicher 411, einen 

Prozessor 412 sowie eine zur Kommunikation gemaJi den TCP/IP- 
Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 410 auf, welche mittels eines 
Computerbusses 42 6 miteinander gekoppelt sind, 

15 

Die Computer 401, 413, 420 tibermitteln die statistischen 
Modelle 406, 418, 525 an den Client-Computer 409 in 
jeweiligen elektronischen Nachrichten 407, 419, 427, welcher 
diese in dessen Speicher 410 speichert. 

20 

Im Folgenden wird zur einfacheren Darstellung das 
Ausf iihrungsbeispiel nur unter Berticksichtigung des ersten 
statistischen Modells 406 und des zweiten statistischen 
Modells 418 naher erl&utert. Es ist jedoch anzumerken, dass 
25 erf indungsgemafi eine beliebige Anzahl statistischer Modelle 
zu einem Gesamt -Modell zusammengeftihrt werden kann, 
beispielsweise mittels wiederholten Durchftthrens der im 
Folgenden beschriebenen Verf ahrensschritte . 

30 Im Unterschied zu dem dritten Ausfiihrungsbeispiel ist es 
gem&fl dem dritten Ausfiihrungsbeispiel das Ziel, mehrere 
statistische Modelle miteinander zu einem Gesamt -Modell zu 
kombinieren. 

35 Somit wird in Anlehnung an die im dritten Ausfiihrungsbeispiel 
verwendeten Nomenklatur von dem Partner A ebenfalls ein 
statistisches Modell Pa(W,X,Y) erstellt und dann werden die 
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Modelle Pa(W,X,Y) und Pb(X,Y,Z) zu einem statistischen 
Gesamt-Modell P (W,X,Y, Z) kombiniert. 

Das Gesamt-Modell P(W,X,Y,Z) kann basierend auf den beiden 
5 Modellen P A (W,X,Y) und Pb(X,Y,Z) definiert werden als: 
• P(W,X,Y,Z) = P A (W,X,Y)P B (Z|X,Y) Oder als 
P(W,X,Y,Z) = P B (X,Y,Z)P A (W|X,Y) . 

Auch Kombinationen aus beiden Vorgehensweisen sind 
10 erf indungsgemafi vorgesehen. Ftlr den Partner A ist es am 

sinnvollsten, die erste obige Alternative zu wahlen. Damit 
verftigt er tiber ein statistisches Gesamt-Modell 426, welches 
ihm in einer approximativen Weise ermoglicht, auch die 
Abhangigkeiten zwischen den Attributen W und Z zu analysieren 
15 (in diesem Ausftlhrungsbeispiel die Abhangigkeit zwischen 

Fahrzeugtyp und Gehaltseingang) . Basierend auf dem Gesamt- 
Modell 42 6 werden beispielsweise bedingte 

Wahrscheinlichkeitsverteilungen der Form P(X|Z), z,B. eine 
Verteilung tiber oder eine Affinitat zu Fahrzeugtypen bei 
20 einem gegebenen Gehaltseingang, ermittelt. Hierzu wird uber 
die Variablen X und Y marginalisiert . 

Zur Eriauterung wird angenommen, dass die Ergebnisse aus dem 
Gesamt-Modell 426 in einer Art eines zweistufigen Prozesses 

25 zustande kommen. Zunachst wird aus der Variable W auf die 
gemeinsamen Variablen X und Y basierend auf dem Modell 
P A (W,X,Y) geschlossen. Entsprechend alien danach erlaubten 
Kombinationen fiir die Variablen X und Y wird die bedingte 
Wahrscheinlichkeitsverteilung Pb(Z|X,Y) (Pradiktion der 

30 Variable Z aus den Variablen X und Y) genutzt, urn die 
Verteilung ftlr die Variable Z zu bestimmen, 

Im Unterschied zu dem Fall, in dem alle vier Variablen in 
einer Datenbank zu finden sind, erfolgt die Schlussfolgerung 
35 somit erf indungsgemafi indirekt; ahnlich wie bei einer 
Fltisterpost konnen dabei Informationen verloren gehen. 
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Im schlimmsten Fall, naicilich wenn kein Uberlapp zwischen den 
beiden statistischen Abbildern vorliegt, dann ist auch keine 
Kombination der beiden Modelle moglich. Allerdings ist 
beispielsweise far den Fall, dass gemeinsame Variablen in den 
beiden Modellen vorhanden sind, moglich, ein Gesamt-Modell zu 
bilden, selbst wenn in den beiden Ausgangs-Datenbanken keine 
gemeinsamen Kunden, beispielsweise kein geraeinsamer 
Kundenschltissel, vorhanden ist. 

Das Gesamt-Modell 426 P(W,X,Y, Z) kann numerisch einfach 
gehandhabt werden, wenn der Uberlapp zwischen diesen 
statistischen Modellen nicht zu grofl ist, vorzugsweise 
kleiner als 10 gemeinsame Variablen. In dem Fall eines grofien 
„Uberlapp-Raums* konnen zusatzliche Approximationen verwendet 
werden, urn die Ausftihrung der folgenden Summen zu 
beschleunigen, welche gemaB den obigen Ausftihrungsbeispielen 
uber alle gemeinsamen ZustSnde der gemeinsamen Variablen X 
und Y gebildet werden mtlssen: 



Die Summen konnen insbesondere sehr geschickt approximiert 
werden basierend auf einem Ansatz durch Einfiihren einer 
zusatzlichen kUnstlichen Variable H und zusatzlichen 
bedingten Verteilungen (Tafeln im Falle diskreter Variable) 
p(h|x, y) und p(z|h) der Form: 



P(W|Z) oc £ Pa(W/ X, Y) • Efe(z|X, y) 
x,y 



bzw. 



P(W, Z) = 2 ?a( W ' X ' Y ) " Y ) • 



PapproxW, Z) « £ ^ (W ' X ' Y) E P < H I x / Y ) * %< z ' H ) 
x,y h 
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bzw. 

PapproxW/ x ' Y ' Z) * *aW* x / y >Z p < h I x ' Y > *b< z 1 H) • 

h 

5 Die Struktur bzw. die Parametrisierung der bedingten 

Verteilungen p(h|x, y) und p(z|h) bzw. die Form der Abhangigkeit 

zwischen X,Y und H einerseits und H und Z andererseits wird 
so gewahlt, dass die obigen Summen einfach auszufiihren sind. 
Die Parameter der bedingten Verteilungen p(h|x, y) und p(z|h) 

10 werden so bestimmt, dass die approximative Gesamtverteilung 
P approx (W / X/ Y, Z) moglicht gut der gewiinschten Verteilung 

P(W, X, Y, Z) = Pk(W, X, Y) • Pb(z|x, y) 

15 entspricht. Als Kostenfunktion kann hierbei insbesondere die 
Log-Likelihood bzw. die Kullback-Leibler-Distanz verwendet 
werden. Als Optimierungsverf ahren bieten sich daher wiederum 
ein EM-Lernverfahren Oder ein Gradienten-basiertes 
Lernverf ahren an. 

20 

Das Auf finden optimaler Parameter kann und darf durchaus 
rechenaufwendig sein. Sobald die beiden 
Wahrscheinlichkeitsmodelle dann zu einem Gesamtmodell 
„fusioniert* sind kann das Gesamtmodell in einer sehr 
25 effizienten Art und Weise genutzt werden. 

Es bietet sich insbesondere an,- die Variable H als eine 
versteckte Variable einzuftthren, also die Verteilung 
P (W,X,Y,H) zu parametrisieren als 

30 

p(w, x, y, h) = p(h) • p(w, x, y|h) 

mit einer so genannten a priori Verteilung P(H) . 



35 In dem Fall in dem das Modell P(W,X,Y) bereits ursprtinglich 
als ein Latent Variable Model parametrisiert wurde, 
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P A (W, X, Y) = £ *A< X ' Y, Z I H) - P^H) , 
h 

kann unmittelbar die bereits vorhandene latente Variable H 
genutzt werden. 

Statt einer versteckten Variable H konnen auch mehrere 
Variablen eingeftihrt werden. Gleichzeitig kann auch far das 
Modell PB zur Vereinf achung der Numerik eine versteckte 
Variable K eingeftihrt werden. Eine Approximation des 
Gesamtmodells P (W,X,Y,Z) nimmt damit z.B. die Form an 

P(W, X, Y, Z) * 2 ?A< X ' Z | H) • Pa(H)^ P(K | H) ■ 3?b(Z | K) . 
h k 

In diesem Modell k6nnen Summen tiber den Raum des Oberlapps 
bestehend aus X und Y einfach durch bekannte 
Inf erenzverf ahren (beispielsweise das so genannte Junction- 
Tree-Verf ahren) ausgeftihrt werden. Ftir die Fusion der beiden 
Modelle ist lediglich die bedingte Verteilung p(k|h) durch 

bekannte Lernverf ahren zu bestimmen. 

Um das Ziel zu erreichen kleine, austauschbare jedoch aber 
sehr genaue „Abbilder einer Datenbank* zu generieren, sind 
insbesondere sehr skalierbare Lernverf ahren, die hoch 
komprimierte Abbilder generieren, erwtinscht. Gleichzeitig 
sollen sich die Abbilder effizient fusionieren, d.h. 
zusammenftihren lassen, wozu man insbesondere auch sehr 
effizient mit fehlenden Inf ormationen umgehen k5nnen sollte. 
Bekannte Lernverf ahren sind insbesondere dann langsam, wenn 
in den Daten viele der Belegungen der Felder fehlen. 

Fig. 5 zeigt eine Computer-Anordnung 500 gemafi einem ftinften 
Ausfuhrungsbeispiel der Erfindung. 
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Die Compute r-Anordnung . 500 wird im Rahmen des Austauschs von 
Kundeninformation, gemSB diesem Ausf iihrungsbeispiel im Rahmen 
des Austauschs von Adressinf ormation von Kunden, eingesetzt. 
Die Computer-Anordnung 500 weist einen Server-Computer 501 
5 sowie einen oder mehrere mit diesem tiber ein 

Telekommunikationsnetz 502 verbundenen Client-Computer 503 
auf . 

Der Server-Computer 501 weist einen Speicher 504, einen 
10 Prozessor 505 sowie eine zur Kommunikation tiber das Internet 
eingerichtete Eingangs-/Ausgangsschnittstelle 506 auf, welche 
Komponenten mittels eines Computerbusses 507 miteinander 
gekoppelt sind. Der Server-Computer 501 dient gemSfi diesem 
Ausf Uhrungsbeispiel als Web-Server-Computer, wie im Folgenden 
15 noch naher erlautert wird. 

In dem Speicher 504 ist eine grofle Kunden-Datenbank 508 
(insbesondere mit Adressinf ormation tiber die Kunden und das 
Kaufverhalten der Kunden beschreibende Information) 

20 gespeichert. Ferner ist in dem Speicher 504 noch ein 

statistisches Modell 509, welches von dem Server-Computer 501 
tiber die Kunden-Datenbank 508 gebildet worden ist, 
gespeichert, welches die statistischen Zusammenhange der in 
der Kunden-Datenbank 508 enthaltenen Datenelemente 

25 reprasentiert . 

Das statistische Modell 509 wird unter Verwendung des an sich 
bekannten EM-Lernverf ahrens gebildet, Andere alternative 
bevorzugt eingesetzte Verfahren zum Bilden des statistischen 
30 Modells 509 werden im Folgenden noch im Detail beschrieben. 

Gemafi diesem Ausftihrungsbeispiel der Erfindung wird das 
statistische Modell 509 automatisch in regelmaJBigen 
vorgegebenen Zeitintervallen erneut, jeweils basierend auf 
35 den aktuellsten Daten der Kunden-Datenbank 508, gebildet* 
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Das statistische Modell 509 wird von dem Server- Computer 501 
automatisch zur Ubertragung an den oder an mehrere Client- 
Computer 503 bereitgestellt . 

Der Client-Computer 503 weist ebenfalls eine Eingangs- 
/Ausgangsschnittstelle 510, eingerichtet zur Kommunikation 
gemafi dem TCP/IP-Kommunikationsprotokoll auf sowie einen 
Prozessor 511 und einen Speicher 512. Die Komponenten des 
Client-Computers sind mittels eines Computerbusses 513 
miteinander gekoppelt . 

Das in einer elektronischen Nachricht 514 von dem Server- 
Computer 501 an den Client-Computer 503 Ubertragene 
statistische Modell 509 wird in dem Speicher 512 des Client- 
Computers 503 gespeichert. 

In diesem Zusammenhang ist anzumerken, dass in dem 
statistischen Modell 509 die Details der Kunden-Datenbank 
508 , insbesondere die tatsachlichen Adressen der Kunden, 
nicht enthalten ist. Das statistische Modell 509 enthalt 
allerdings statistische Information tlber das Verhalten, 
insbesondere uber das Kaufverhalten der Kunden. 

Der Benutzer des ' Client-Computers 503 wahlt nunmehr eine fur 
ihn interessante Gruppe von Kunden, d.h. einen ftir ihn 
interessanten Teil 515 des statistischen Modells 509, der ein 
ftir das Unternehmen des Benutzers des Client-Computers 503 
interessierendes Kaufverhalten beschreibt, aus . Die 
Information 515 Uber den ausgewahlten Teil des statistischen 
Modells 509 tibertragt der Client-Computer 503 in einer 
zweiten elektronischen Nachricht 516 zu dem Server-Computer 
501. 

Unter Verwendung der empfangenen Information liest der 
Server-Computer 501 die mittels des Teils 515 des 
statistischen Modells 509 bezeichneten Kunden und die 
zugehorige Kunden-Detailinformation 517, insbesondere die 
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Adressen der Kunden, aus der Kunden-Datenbank 508 aus und 
tlbermittelt die ausgelesene Kunden-Detailinformation 517 in 
einer dritten elektronischen Nachricht 518 zu dem Client- 
Computer 503. 

5 

Auf diese Weise ist es m6glich, beispielsweise fttr eine 
Market ing-Kampagne seitens des Benutzers des Client-Computers 
503 gezielt die Adressen der gemafi der Kunden-Datenbank 508 
ftir die Kampagne interessantesten Kunden des Unternehmens des 
10 Server-Computers 501 auszuwahlen und von dem Server-Computer 
501 zu erbitten. Ein erheblicher Vorteil ist ferner darin zu 
sehen, dass der Server-Computer 501 nur die Inf ormationen an 
den Client-Computer 503 tlbermittelt, die auch an diesen 
tibermittelt werden dUrfen. 

15 

Diese Obermittlung erfolgt gemaJJ einer Ausgestaltung der 
Erfindung gegen Bezahlung. Anders ausgedriickt wird somit eine 
sehr effizientes so genanntes „0n-Line Listbroking* 
realisiert. 

20 

Im Folgenden werden verschiedene skalierbare Verfahren zum 
Bilden eines statistischen Modells angegeben. 

Zur besseren Veranschaulichung der bevorzugt eingesetzten 
25 Verbesserung eines EM-Lernverf ahrens im Falle eines Naiven 
Bayesianischen Cluster Modells werden im Folgenden einige 
Grundlagen des EM-Lernverf ahrens naher erlautert: 

Mit X = {Xk,k = 1, ...,K} wird einen Satz von K statistischen 
30 Variablen (die z.B. den Feldern einer Datenbank entsprechen 
kSnnen) bezeichnet . 

Die Zustande der Variablen werden mit kleinen Buchstaben 
bezeichnet. Die Variable Xi kann die Zustande x^i, xi f 2/ ... 
35 annehmen, d.h. Xi e ^l,ifi = l/...,Li}. Li ist die Anzahl der 
Zustande der Variable Xi . Ein Eintrag in einem Datensatz 
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•(einer Datenbank) besteht nun aus Werten fUr alle Variablen, 
wobei x n = x 2' x 3' •••) den ^-ten Datensatz bezeichnet. In 
dem 7t-ten Datensatz ist die Variable Xi in dem Zustand xj, 
die Variable X2 in dem Zustand x£ / usw. Die Tafel hat M 

Eintrage, d.h. )p n , it = 1, ...,m}. Zusatzlich gibt es eine 
versteckte Variable oder eine Cluster-Variable , die im 
Folgenden mit CI bezeichnet wird; deren Zustande sind 
{co i/ i = l,,,,,^. Es gibt also N Cluster. 

In einem statistischen Clustering-Modell beschreibt P(Q) eine 
a priori Verteilung; P(©i) ist das a priori Gewicht des i-ten 
Clusters und p(x|©i) beschreibt die Struktur des i-ten 

Clusters oder die bedingte Verteilung der beobachtbaren (in 
der Datenbank enthaltenen) GroBen X = {k^, k = 1, ...,k} in dem * 

i-ten Cluster. Die a priori Verteilung und die bedingten 
Verteilungen ftir jedes Cluster parametrisieren zusammen ein 
gemeinsames Wahrscheinlichkeitsmodell auf X u Q bzw. auf X. 

In einem Naiven Bayesian Network wird vorausgesetzt, dass 
K 

p(x]©i) mit p(X] c |a>i) faktorisiert werden kann. 
k=l 

Im Allgemeinen wird darauf gezielt, die Parameter des 
ModellS/ also die a priori Verteilung p(H) und die bedingten 
Wahrscheinlichkeitstafeln p(x|o) derart zu bestimmen, dass das 

gemeinsame' Modell die eingetragenen Daten moglichst gut 
widerspiegelt . Ein entsprechendes EM-Lernverf ahren besteht 
aus einer Reihe von Iterationsschritten, wobei in jedem 
Iterationsschritt eine Verbesserung des Modells (im Sinne 
einer so genannten Likelihood) erzielt wird. In jedem 
Iterationsschritt werden neue Parameter p neu (...) basierend 
auf den aktuellen oder „alten* • Parametern p alt (...) gesch&tzt. 

Jeder EM-Schritt beginnt zunSchst mit dem E-Schritt, in dem 
^Sufficient Statistics* in daftir bereitgehaltenen Tafeln 
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ermittelt werden. Es wird mit Wahrscheinlichkeitstaf eln 
begonnen, deren Eintrage mit Null-Werten initialisiert 
werden. Die Felder der Tafeln werden im Verlauf des E- 
Schrittes mit den so genannten Sufficient Statistics s(Q) und 
s(x, Cl) gefttllt, indem fttr jeden Datenpunkt die fehlenden 
Informationen (also insbesondere die Zuordnung jedes 
Datenpunktes zu den Clustern) durch Erwartungswerte erganzt 
werden. 

Urn Erwartungswerte fttr die Clustervariable £2 zu berechnen 
ist die a posteriori Verteilung p alt ^Wi|x 7c ^ zu ermitteln. 

Dieser Schritt wird auch als „Inf erenzschritt** bezeichnet. 

Im Falle eines Naive Bayesian Network ist die a posteriori 
Verteilung fttr Q nach der Vorschrift 




(wi)np alt ki^) 

k=l 



fur jeden Datenpunkt x 71 aus den eingetragenen Informationen 

1 

zu berechneh/ wobei — eine vorgebbare Normierungskonstante 

Z % 

ist . 

Das Wesentliche dieser Berechnung besteht aus der Bildung des 
Produkts P alt ^k|©i) tiber alle k = If — /K. Dieses Produkt muss 
in jedem E-Schritt fttr alle Cluster i = 1,... ,N und fttr alle 
Datenpunkte x n , n = 1, ...,M gebildet werden, 

Ahnlich aufwendig oft noch aufwendiger ist* der 
Inferenzschritt fttr die Annahme anderer 

Abhangigkeitsstrukturen als einem Naive Bayesian Network, und 
beinhaltet damit den wesentlichen numerischen Aufwand des EM- 
Lernens . 
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Die Eintrage in den Taf eln s(Q) und S(x, Q) andern sich nach 
Bildung des obigen Produktes filr jeden Datenpunkt 
x w ,w = 1,...,M, da s((Di) urn p alt (©i^] fur alle i addiert 

wird, bzw. eine Summe alle p alt [fi>ilx 71 ] gebildet wird. Auf 

entsprechende Weise wird s(x, ©i) (bzw. s(x k , <ss±) fur alle 
Variabeln k im Falle eines Naive Bayesian Network) jeweils urn 
p alt ^©ilx 7C J ftlr alle Cluster i addiert. Dieses schliefit 
zunachst den E (Expectation) -Schritt ab. 

Anhand dieses Schrittes werden neue Parameter p neu (fl) und 
p neu (x|£l) fur das statist! sche Modell berechnet, wobei pk|a>i) 
die Struktur des i-ten Cluster oder die bedingte Verteilung 
der in der Datenbank enthaltenden Grofien X in diesem i-ten 

Cluster darstellt. 

Im M (Maximisation) -Schritt werden unter Optimierung einer 
allgemeinen log Likelihood 

M N / \ 

L = £ log £p(x>ijp(a>i) (1) 

11=1 i=l 

neue Parameter p neu (fi) und p neu (x|o), welche auf den bereits 
berechneten Sufficient Statistics basieren, gebildet. 

Der M-Schritt bringt keinen wesentlichen numerischen Aufwand 
25 mehr mit sich. 

Somit ist klar, dass der wesentliche Aufwand des Algorithmus 
in dem Inf erenzschritt bzw. auf die Bildung des Produktes 

f}p alt ^kl©i) und auf die Akkumulierung der Sufficient 
k=l 

30 Statistics ruht. 
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Die Bildung von zahlreichen Null -Element en in den 
Wahrscheinlichkeitstafeln p alt (x|G>i) bzw. P alt (X] c |©i) lasst 
sich jedoch durch geschickte Datenstrukturen und Speicherung 
von Zwischenergebnissen von einem EM-Schritt zum nSchsten 
5 dazu ausnutzen, die Produkte effizient zu berechen. 

Zum Beschleunigen des EM-Lernverf ahrens wird die Bildung 
eines Gesamtproduktes in einem obigem Inf erenzschritt, 
welcher aus Faktoren von a posteriori Verteilungen von 

10 Zugehorigkeitswahrscheinlichkeiten ftir alle eingegebene 

Datenpunkte besteht, wie gewohnlich durchgeftlhrt wird/ sobald 
die erste Null in den dazu gehorenden Faktoren auftritt, wird 
die Bildung des Gesamtproduktes jedoch abgebrochen. Es lasst 
sich zeigen, dass ftir den Fall, dass in einem EM-Lernprozess 

15 ein Cluster ftir einen bestimmten Datenpunkt das Gewicht Null 
zugeordnet bekommt, dieser Cluster auch in alien weiteren EM- 
Schritten ftir diesen Datenpunkt das Gewicht Null zugeordnet 
bekommen wird. 

Somit wird eine sinnvolle Beseitigung von uberf Itissigen 
numerischen Aufwand gewahrleistet, indem entsprechende 
Ergebnisse von einem EM-Schritt zum nachsten 

zwischengespeichert werden und nur ftir die Cluster, die nicht 
das Gewicht Null haben, bearbeitet werden. 

Es ergeben sich somit die Vorteile, dass aufgrund des 
Bearbeitungsabbruchs beim Auftreten eines Clusters mit Null 
Gewichten nicht nur innerhalb eines EM-Schrittes sondern auch 
fUr alle weiteren Schritte, besonders bei der Bildung des 
Produkts im Inf erenzschritt , das EM-Lernverf ahren insgesamt 
deutlich beschleunigt wird. 

Im Verfahren zur Ermittlung einer in vorgegebenen Daten 
vorhandenen Wahrscheinlichkeitsverteilung werden 
35 Zugehorigkeitswahrscheinlichkeiten zu bestimmten Klassen nur 
bis zu einem Wert nahezu 0 in einem iterativen Verfahren 
berechnet, und die Klassen mit 
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Zugehorigkeitswahrscheinlichkeiten unterhalb eines 
auswahlbaren Wertes im iterativen Verfahren nicht weiter 
verwendet . 

5 In einer Weiterbildung des Verfahrens wird eine Reihenfolge 
der zu berechnenden Faktoren derart bestimmt, dass der 
Faktor, der zu einem selten auf tretenden Zustand einer 
Variabel gehort, als erstes bearbeitet wird. Die selten 
auftretenden Werte konnen vor Beginn der Bildung des Produkts 
10 derart in einer geordneten Liste gespeichert werden, dass die 
Variabeln je nach Haufigkeit ihrer Erscheinung einer Null in 
der Liste geordnet sind. 

Es ist weiterhin vorteilhaft, eine logarithmische Darstellung 
15 von Wahrscheinlichkeitstaf eln zu benutzen. 

Es ist weiterhin vorteilhaft, eine dttnne Darstellung (sparse 
representation) der Wahrscheinlichkeitstaf eln zu benutzen, 
z.B. in Form einer Liste, die nur' die von Null verschiedenen 
20 Elemente enthalt. 

Ferner werden bei der Berechnung von Sufficient Statistics 
nur noch die Cluster berticksichtigt, die ein von Null 
verschiedenes Gewicht haben. 

25 

Die Cluster, die ein von Null verschiedenes Gewicht haben, 
konnen in eine Liste gespeichert werden, wobei die in der 
Liste gespeicherte Daten Pointer zu den entsprechenden 
Cluster sein konnen. 

30 

Das Verfahren kann weiterhin ein Expectation Maximisation 
Lernprozess sein, bei dem in dem Fall dass ftir ein Datenpunkt 
ein Cluster ein a posteriori Gewicht „Null* zugeordnet 
bekommt, dieser Cluster in alien weiteren Schritten des EM- 
35 Verfahrens ftir diesen Datenpunkt das Gewicht Null erhalt und 
dass dieser Cluster in alien weiteren Schritten nicht mehr 
berticksichtigt werden muss. 
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Das Verfahren kann dabei nur noch liber Cluster laufen, die 
ein von Null verschiedenes Gewicht haben. 

5 I. Erstes Beispiel in einem Inf erenzschritt 

a) Bildung eines Gesamtproduktes mit Unterbrechung bei 
Nullwert 

10 FUr jeden Cluster a>± in einem Inf erenzschritt wird die 

Bildung eines Gesamtproduktes durchgefiihrt . Sobald die erste 
Null in den dazu gehorenden Faktoren, welche beispielsweise 
aus einem Speicher, Array oder einer Pointerliste 
herausgelesen werden konnen, auftritt, wird die Bildung des 

15 Gesamtproduktes abgebrochen, 

Im Falle des Auftretens eines Nullwertes wird dann das zu dem 
Cluster gehorende a posteriori Gewicht auf Null gesetzt. 
Alternativ kann auch zuerst geprtift werden, ob zumindest 
20 einer der Faktoren in dem Produkt Null ist. Dabei werden alle 
Multiplikationen fur die Bildung des Gesamtproduktes nur dann 
durchgefiihrt, wenn alle Faktoren von Null verschieden sind. 

Wenn hingegen bei einem zu dem Gesamtprodukt gehorender 
25 Faktor kein Nullwert auftritt, so wird die Bildung des 

Produktes wie normal fortgefuhrt und der nachste Faktor aus 
dem Speicher, Array oder der Pointerliste herausgelesen und 
zur Bildung des Produktes verwendet. 

30 b) Auswahl einer geeigneten Reihenfolge zur Beschleunigung 
der Datenverarbeitung 

Eine geschickte Reihenfolge wird derart gewahlt, dass, falls 
ein Faktor in dem Produkt Null ist, dieser Faktor mit hoher 
35 Wahrscheinlichkeit sehr bald als einer der ersten Faktoren in 
dem Produkt auftritt* Somit kann die Bildung des 
Gesamtproduktes sehr bald abgebrochen werden. Die Festlegung 
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der neuen Reihenfolge kann dabei entsprechend der Haufigkeit, 
mit der die Zustande der Variablen in den Daten auftreten, 
erfolgen. Es wird ein Faktor der zu einer sehr selten 
auftretenden Zustand einer Variable gehSrt, als erstes 
5 bearbeitet. Die Reihenfolge, in der die Faktoren bearbeitet 
werden, kann somit einmal vor dem Start des Lernverf ahrens 
festgelegt werden, indem die Werte der Variablen in einer 
entsprechend geordneten Liste gespeichert werden. 

10 c) Logarithmische Darstellung der Tafeln 

Urn den Rechenaufwand des oben genannten Verfahrens mSglichst 
einzuschranken, wird vorzugsweise eine logarithmische 
Darstellung der Tafeln benutzt, urn beispielsweise Underflow- 

15 Probleme. zu vermeiden. Mit dieser Funktion konnen 

ursprUnglich Null-Elemente zum Beispiel durch einen positiven 
Wert ersetzt werden. Somit ist eine aufwendige Verarbeitung 
bzw. Trennungen von Werten, die nahezu Null sind und sich 
voneinander durch einen sehr geringen Abstand unterscheiden, 

20 nicht weiter notwendig. 

d) Umgehung von erhohter Summierung bei der Berechnung von 
Sufficient Statistics 

25 In dem Fall, dass die dem Lernverf ahren zugegebenen 
stochastischen Variablen eine geringe 

Zugehorigkeitswahrscheinlichkeit zu einem bestimmten Cluster 
besitzen, werden im Laufe des Lernverf ahrens viele Cluster 
das a posteriori Gewicht Null haben. 

30 

Um auch das Akkumulieren der Sufficient Statistics in dem 
darauf folgenden Schritt zu beschleunigen, werden nur noch 
solche Cluster in diesem Schritt berticksichtigt, die ein von 
Null verschiedenes Gewicht haben. 

35 

Dabei ist es vorteilhaft, die von Null verschiedenen Cluster 
in einer Liste, einem Array oder einer ahnlichen 
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Datenstruktur gespeichert werden, die es erlaubt, nur die von 
Null verschiedenen Elemente zu speichern. 

II. Zweites Beispiel in einem EM Lernverf ahren 

5 

a) Nicht-Berttcksichtigung von Cluster mit Null-Zuordnungen 
far einen Datenpunkt 

Insbesondere wird hier in einem EM-Lernverf ahren von einem 
10 Schritt des Lernverf ahr ens zum nachsten Schritt ftir jeden 
Datenpunkt gespeichert, welche Cluster durch Auftreten von 
Nullen in den Tafeln noch erlaubt sind und welche nicht mehr. 

Wo im ersten Beispiel Cluster, die durch Multiplikation mit 
15 Null ein a posteriori Gewicht Null erhalten, aus alien 
weiteren Berechnungen ausgeschlossen werden, urn dadurch 
numerischen Aufwand zu sparen, werden in gemSB diesem 
Beispiel auch von einem EM-Schritt zum n&chsten 
Zwischenergebnisse beztiglich Cluster-Zugehorigkeiten 
20 einzelner Datenpunkte (welche Cluster bereits ausgeschlossen 
bzw. noch zulassig sind) in zusatzlich notwendigen 
Datenstrukturen gespeichert. 

b) Speichern einer Liste mit Referenzen auf relevante Cluster 

25 

Ftir jeden Datenpunkt oder far jede eingegebene stochastische 
Variable kann zun&chst eine Liste oder eine ahnliche 
Datenstruktur gespeichert werden, die Referenzen auf die 
relevanten Cluster enthalten, die ftir diesen Datenpunkt ein 
30 von Null verschiedenes Gewicht bekommen haben, 

Insgesamt werden in diesem Beispiel nur noch die erlaubten 
Cluster, allerdings fUr jeden Datenpunkt in einem Datensatz, 
gespeichert . 

35 

Die beiden obigen Beispiele kSnnen miteinander kombiniert 
werden, was den Abbruch bei „Null*-Gewichten im 
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Inferenzschritt ermeglicht, wobei in folgenden EM-Schritten 
nur noch die zulassigen Cluster nach dem zweiten Beispiel 
bertlcksichtigt werden. 

Eine zweite Variante des EM-Lernverf ahrens wird im Folgenden 
naher erlautert. Es ist darauf hinzuweisen, dass dieses 
Verfahren unabhangig von der Verwendung des auf diese Weise 
gebildeten statistischen Modells ist. 

Bezugnehmend auf das oben beschriebene EM-Lernverf ahren lasst 
sich zeigen, dass das Erganzen fehlender Information nicht 
fur alle Grofien erfolgen muss. Erf indungsgemafi wurde erkannt, 
dass ein Teil der fehlenden Information „ignoriert* werden 
kann. Anders ausgedrttckt bedeutet dies, dass nicht versucht 
wird, etwas liber eine Zuf allsvariable Y zu lernen aus Daten, 
in denen keine Information Uber die Zuf allsvariable Y (einem 
Knoten Y) enthalten ist oder dass nicht versucht- wird, etwas 
ilber die Zusammenhange zwischen zwei Zufallsvariablen Y und X 
(zwei Knoten Y und X) aus Daten, in denen keine Information 
Obex die Zufallsvariablen Y und X enthalten ist. 

Damit wird nicht nur der numerische Aufwand zur Durchf tlhrung 
des EM-Lernverf ahrens wesentlich reduziert, sondern es wird 
ferner erreicht, dass das EM-Lernverf ahren schneller 
konvergiert. Ein zusatzlicher Vorteil ist darin zu sehen, 
dass statistische Modelle mittels dieser Vorgehensweise 
leichter dynamisch aufbauen lassen, d.h. w&hrend des 
Lernprozesses konnen leichter Variablen (Knoten) in einem 
Netz, dem gerichteten Graphen, erg^nzt werden. 

Als anschauliches Beispiel fttr das erf indungsgemafie Verfahren 
wird angenommen, dass ein statistisches Modell Variablen 
enthait, die beschreiben, welche Bewertung ein Kinobesucher 
einem Film gegeben hat. Far jeden Film gibt es eine Variable, 
wobei jeder Variable eine Mehrzahl von Zustanden zugeordnet 
ist, wobei jeder Zustand jeweils einen Bewertungswert 
reprasentiert . Fttr jeden Kunden gibt es einen Datensatz, in 
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dem gespeichert ist, welcher Film welchen Bewertungswert 
erhalten hat . Wird ein neuer Film angeboten, so f ehlen 
anfangs die Bewertungswerte ftir diesen Film. Mittels der 
neuen Variante des EM-Lernverf ahrens ergibt sich nunmehr die 
5 Moglichkeit, das EM-Lernverf ahr en bis zu dem Erscheinen des 
neuen Films nur mit den bis dorthin bekannten Filmen 
durchzufiihren, d.h. den neuen Film (d.h. allgemein den neuen 
Knoten in dem gerichteten Graphen) zunachst zu ignorieren. 
Erst mit Erscheinen des neuen Films wird das statistische 
10 Modell urn eine neue Variable (einen neuen Knoten) dynamisch 
erganzt und die Bewertungen des neuen Films werden 
berticksichtigt . Die Konvergenz des Verf ahrens im Sinne der 
log Likelihood ist dabei noch immer gewahrleistet; das 
Verfahren konvergiert sogar schneller. 

15 

Im Folgenden wird erlautert, unter welchen Bedingungen 
fehlende Inf ormationen nicht berticksichtigt werden mussen. 

Zur Erlauterung der Vorgehensweise wird folgende Notation 
20 verwendet. Mit H wird ein versteckter Knoten bezeichnet. Mit 

wird ein Satz von M beobachtbaren Knoten in 
dem gerichteten Graphen des statistischen Modells bezeichnet. 

Es wird ohne Einschrankung der Allgemeingultigkeit im 
25 Folgenden ein Bayesianisches Wahrscheinlichkeitsmodell 

angenommen, welches gemSfi folgender Vorschrift faktorisiert 
werden kann: 

p(h, o) = p(h) Yl p^Ih) . (2 ) 

71=1 

30 

Es ist in diesem Zusammenhang anzumerken, dass die 
beschriebene Vorgehensweise auf jedes statistische Modell 
anwendbar ist, und nicht auf ein Bayesianisches 
Wahrscheinlichkeitsmodell beschrankt ist, wie spater noch im 
35 Detail dargelegt wird. 
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i- 

Mit Groflbuchstaben werden im Weiteren Zuf allsvariablen 
bezeichnet, wohingegen mit einem Kleinbuchstaben eine Instanz 
einer jeweiligen Zuf allsvariable bezeichnet wird. 

Es wird ein Datensatz mit N Datensatzelementen {o^, i = 1, ...,n} 

angenommen, wobei fur jedes Datensatzelement nur ein Teil der 
beobachtbaren Knoten tatsachlich beobachtet wird. Ftir das i- 
te Datensatzelement wird angenommen, dass die Knoten Xi 
beobachtet wird und dass die Beobachtungswerte der Knoten Yi 
f ehlen. 



Es gilt also: • 

X ± Y ± = 0 ± . (3) 



Es ist zu bemerken, dass fur jedes Datensatzelement ein 
unterschiedlicher Satz von Knoten Xj beobachtet werden kann, 
d.h. dass gilt: 

X ± * Xj fttri * j. (4) 



Die Indizes ftir vorhandene Knoten werden mit k bezeichnet, 
d.h. Xj^ = |c^,k = 1, .../Ki}, die Indizes ftir nicht vorhandene 

Knoten werden mit X bezeichnet, d.h. Y^ = X = 1, ...,LiJ. 

Im Falle eines Bayesianischen Netzes weist das tibliche EM- 
Lernverfahren die folgenden Schritten auf, wie oben schon 
kurz dargestellt: 

1) E-Schritt 

Das Verfahren wird mit „leeren* Tabellen SS(h) und 
SS^ 7 *, h) i = 1, ...,M (initialisiert mit „Nullen* gestartet, um 
darauf basierend die Schatzungen {Sufficient Statistics- 
Werte) zu akkumulieren. Ftir jedes Datensatzelement oi werden 
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die a posteriori Verteilung p(H|x.jJfiir den versteckten Knoten 
H sowie die a posteriori Verbund-Verteilung P^Yflxi) far 
jeden der nicht vorhandenen Knoten Yi zusammen mit dem 
versteckten Knoten H berechnet. 

Fur jedes Datensatzelement i werden die Schatzungen ftir das 
statistische Modell akkumuliert gemaB folgenden Vorschrif ten: 

SS(H) += Z P Nxi), (5) 

i 

SS ( X i = x i' H ) + = p ( H |^i)' V vorhandenen Knoten X* , (6) 

Ss(y^, h) + = p(h, Y^jx ± ) V nicht vorhandenen Knoten Y^ . 

(7) 

Mit dem Symbol += wird die Aktualisierung, d.h. die 
Akkumulation der Tabellen fur die Schatzungen gemaB den 
Werten der jeweiligen „rechten Seite* der Gleichung 
bezeichnet. 

2) M-Schritt 

In dem M-Schritt werden die Parameter fiir alle Knoten gemaB 
folgenden Vorschrif ten aktualisiert : 

P(H) oc SS(H), (8) 
P^Jh) oc SS^h), (9) 

wobei mit dem Symbol oc angegeben wird, dass die 
Wahrscheinlichkeits-Tabellen beim Ubertragen von SS auf P zu 
normieren sind. 



GemaB dem EM-Lernverf ahren werden die Erwartungswerte ftlr die 
nicht vorhandenen Knoten Yi berechnet und entsprechend den 
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Sufficient Statistics-.Werten ftir diese Knoten gemafl 
Vorschrif t ( 7 ) aktualisiert • 

Andererseits ist das Berechnen und Aktualisieren der Verbund- 
Verteilung p(h, Y^|x ± ) fttr alle Knoten e Y ± sehr 
rechenaufwendig. Ferner ist das Aktualisieren der Verbund- 
Verteilung p(h, Y^jx-J ein Grund ftir das langsame Konvergieren 
des EM-Lernverfahrens, wenn ein grofier Teil an Information 
f ehlt . 

Angenommen, die Tabellen werden mit Zuf allszahlen 
initialisiert, bevor das EM-Lernverf ahren gestartet wird. 

In diesem Fall entspricht die Verbund-Verteilung p(h, Y^]^) im 

Wesentlichen diesen Zuf allszahlen im ersten Schritt. Dies 
bedeutet, dass die initialen Zuf allszahlen in den Sufficient 
Statistics-Werten berticksichtigt werden gemafl dem Verhaltnis 
der fehlenden Information bezogen auf die vorhandenen 
Information. Dies bedeutet, dass die initialen Zuf allszahlen 
in jeder Tabelle nur gemafi dem Verhaltnis der fehlenden 
Information bezogen auf die vorhandenen Information 
^gelOscht" werden . 

Im Folgenden wird bewiesen, dass ftir den Fall eines 
Bayesianischen Netzes als statistisches Modell der Schritt 
gemafi Vorschrif t (7) nicht notwendig ist und somit 
weggelassen bzw. Ubersprungen werden kann. 

Die Log-Likelihood des Bayesianischen Netzes als 
statistisches Modell ist gegeben durch: 




(10) 



i=l 
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Far frei vorgegebene Tabellen B^jx-jJ, welche hinsichtlich dem 
Knoten H normiert sind, ergibt sich fur die Log-Likelihood: 

N 

L[P] = 2 B(h|xi) log P(x ± ) 
i=l 



(11) 



N N 

= Z Z B ( h k) p fei' h ) - Z Z B ( h k) log p ( h k) 

i=lh i=lh 

5 

Die Summe ^ bezeichnet die Summe tiber alle Zustande h des 
h 

Knotens H. 

Unter Verwendung der f olgenden Def initionen fur r[p, b] und 
10 h[p, b]: 

N 

R[p, bJ = Z Z B ( h k) log p(x ± , h) (12) 
i=lh 

H[P,B]= f jByiogP^i) (13) 
i=lh 

15 

ergibt sich ftir die Log-Likelihood gemafi Vorschrift (11) : 
L[P] = R[P,B] - H[p, b]. (14) 

20 

Allgemein gilt: 

h[p, B] <, H[P, p], (15) 



25 da h[p, p] - h[p, B] die nicht-negative Kreuzentropie zwischen 
pfhlxjj und B^lxi) darstellt. ■ 
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In dem t-ten Schritt wird das aktuelle statistische Modell 
mit 

p(t) 

bezeichnet. Ausgehend von dem aktuellen 
statistischen Modell des t-ten Schrittes wird ein neues 

statistisches Modell p( t + 1 )] 



'konstruiert derart, dass gilt: 



R^t + l), p(t)] > R |p(t) /p (t)j 



(16) 



10 



Es gilt: 
L |p( t+1 )J 



= LP 



R Ut+l), B ]-H^( t + 1 ), B J 

Rpl),p(t)]- H ^ t+1 ), p( fc )] 
(t),p(t)]_ H ^) /P (t)] 

00 



> RP 



(17) 



15 



Die erste Zeile gilt allgemein ftir alle B (vergleiche 
Vorschrift (14) ) . Die zweite Zeile der Vorschrift (17) 
insbesondere ftlr den Fall, dass gilt: 



B 



-pfr>. 



(18) 



Die dritte Zeile gilt aufgrund Vorschrift (15) . Die letzte 
Zeile von Vorschrift (17) entspricht wiederum 
20 Vorschrift (14) . 

Somit ergibt sich, dass ftir den Fall 

R t(t+i),p(t)j >R Ut),p(t)l 

sicher gilt: 

25 4>( t+1 >] > (19) 

Es ist auf den Unterschied zu dem Standard-EM-Lernverf ahren 
hinzuweisen [2], bei dem der R~Term definiert ist gemail 
folgender Vorschrift: 

30 
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R Standard [P/B]= £ £ B^., h^Jlog P^, y., h). (20) 

i^lh,^ 

Es ist anzumerken, dass in dem Argument von P und B in der 
obigen Vorschrift (20) im Unterschied zu der Definition 
5 entsprechend den Vorschriften (12) und (13) auch die 
fehlenden Grofien y auftreten. 

Eine Sequenz von EM-Iterationen wird gebildet derart, dass 
gilt: 



10 



30 



R S tan dard^(t+l) # p (t)J > R S tan dard^ > (t) / p (t)J m (21) 



Bei dem erf indungsgemafien Lernverf ahren wird far den Fall 
eines Bayesianischen Netzes eine Sequenz von EM-Iterationen 
15 derart gebildet , dass gilt: 

4>(t+i), P (t)j > R |e(t),p(t).j. (16) 

Nun wird gezeigt, dass die auf R, definiert gemafi Vorschrift 
20 (12), zu dem oben beschriebenen Lernverf ahren ftihrt, bei dem 
Vorschrift (7) tibersprungen wird. Bei einem gegebenen 
aktuellen statistischen Modell P^ zu einer Iteration t ist 
es das Ziel des Verfahrens, ein neues statistisches Modell 
p (t + l) in der iteration t+1 zu berechnen, indem r|p, P^] 
25 beztiglich P optimiert wird. Unter Verwendung der 
Faktorisierung gemafi Vorschrift (2) ergibt sich: 



r|e>, pfr)] =22 * ( %h) p ( h ) + SZZ P (t) (%i) log 4f |h) . 



I 

i=lh i = lh k = 1 



(22) 



Eine Optimierung von R in Bezug auf das Modell P ftihrt zu dem 
erf indungsgemafien Verf ahren. Der erste Term ftihrt zu der 
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Standard-Aktualisierung der p(h) gemafi den Vorschriften (5) 
und (7) . 

Mit 

SS(h) = J P^(h|x ± ) log P(h) ( 23 ) 

i=l 

ergibt sich der erste Term von Vorschrift (22) zu 

io p(t) ( h k) lo 9 p ( h > = S ss ( h ) lo< 3 p ( h > ' ( 24 > 

h i=l h 

was im Wesentlichen der Kreuzentropie zwischen SS(h) und p(h) 
entspricht. Somit ist das optimale p(h) durch SS(h) gegeben. 
Dies entspricht dem M-Schritt gemafi Vorschrift (8) . 

15 

Der zweite Term von Vorschrift (22) fiihrt zu einer EM- 
Aktualisierung ftir die Tabellen der bedingten 
Wahrscheinlichkeiten wie mittels der Vorschriften (6) 

und (9) beschrieben. Um dies zu veranschaulichen werden alle 
20 die Terme in R gesammelt, welche abhangig sind von P^O^h). 
Diese Terme sind gegeben gemafi folgender Vorschrift: 

£ fp^hlxJlogP^). (25) 
h i=l 

N 

25 Die Summe ^ bezeichnet die Summe tiber alle Datenelemente 

i=l 

i in dem Datensatz, wobei O einer der beobachteten Knoten 
ist, d.h. bei dem gilt: 
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0 % 6 X ± . (26) 



Zusammenfassend kann der obige Ausdruck (25) als die 
Kreuzentropie zwischen und den Sufficient Statistics- 

Werten, welche gemafi Vorschrift (6) akkumuliert werden, 
interpretiert werden. Es ist somit nicht erforderlich, eine 
Aktualisierung gemafi Vorschrift (7) vorzusehen. Dies ist auf 

N K i 
die Summe ^ in Vorschrift (25) bzw. auf die Summe 2 
i=l k=1 



in Vorschrift (22) zuriickzufiihren. Diese Summe berUcksichtigt 
nur die beobachteten Knoten, im Gegensatz zu der Definition 
von R standard gemafi Vorschrift (20), in der auch die nicht 
beobachteten Knoten Yi berucksichtigt werden. 

Im Folgenden wird in einem allgemeingtiltigeren Fall die 
GUltigkeit der Vorgehensweise, nicht beobachtete Knoten im 
Rahmen der Aktualisierung der Sufficient Statistics Tafeln 
nicht zu berttcksichtigen, dargelegt, womit gezeigt wird, dass 
die Vorgehensweise nicht auf ein so genanntes Bayesianisches 
Netz beschrankt ist. 

Es wird ein Satz von Variablen Z = jz 1 , Z 2 , ... , Z M } angenommen. 
Es wird ferner angenommen, dass das statistische Modell auf 
folgende Weise f aktorisierbar ist: 



p©= n^°|nH' (27) 

a=l 



wobei mit fj ^ a J die „Eltem* -Knoten des Knoten Z a in dem 

Bayesianischen Netz bezeichnet werden. Ferner wird ftir jeden 
Knoten Z ein Datensatz \z±, i = 1, ...,n} mit N 

Datensatzelementen angenommen. Wie schon oben angenommen, 
wird auch in diesem Fall in jedem der N Datensatzelemente ein 
nur ein Teil der Knoten Z beobachtet. Ftir das i-te 
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Datensatzelement wird angenommen, dass die Knot en Xi 
beobachtet werden; die Knoten Xi werden nicht beobachtet und 
es gilt: 

Z = X ± kj Xi . (28) 

Fiir jedes der N Datensatzelemente werden die nicht 
beobachteten Knoten Xi in zwei Untermengen Hi und Yi 
aufgeteilt derart, dass keiner der Knoten in den Mengen Xi 
und Hi ein abhSngiger, d.h. nachf olgender Knoten („Kinder*- 
Knoten) eines Knotens in der Menge Yi ist. Anschaulich 
bedeutet das, dass Yi einem Zweig in einem Bayesianischen 
Netz entspricht, zu dem es keine Inf ormationen in den Daten 
gibt . 

Somit ergeben sich die Verbund-Verteilungen ftlr die Knoten Xi 
und Hi gemafi f olgender Vorschrift: 

pfei,Hi)= n^inw) nK^riN)- (29) 

XgX ± HgH^ 
1) E-Schritt 

Fur jeden Knoten Z werden mit Null-Werten initialisierte 
Tabellen ss(z, [z]) gebildet bzw. bereitgestellt . FUr jedes 

Datensatzelement i in dem Datensatz werden die a posteriori 
Verteilung p(z, J~J [zJXi = XjJ berechnet und die Sufficient 

Statistics-Werte gemafi folgender Vorschrift akkumuliert ftlr 
j eden Knoten Z e Xi und z 6 Si : 

Ss(z, n l Z ) + = P ( Z ' E[ t Z fci = *i) • OO) 

Die Sufficient Statistics-Werte der Tabellen, welche den 
Knoten in Xi zugeordnet sind, werden nicht aktualisiert . 



2) M-Schritt 
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Die Parameter (Tabellen) aller Knoten werden gemafi folgender 
Vorschrift aktualisiert : 

5 p[>|n kj) * ss ( zC ' n H- < 3i) 

Anschaulich kann die Erfindung darin gesehen werden, dass ein 
breiter und einfacher (im Allgemeinen jedoch allerdings 
approximativer) Zugang zu der Statistik einer Datenbank 

10 (bevorzugt tiber das Internet) durch Bildung statistischer 

Modelle fUr die Inhalte der Datenbank geschaffen wird. Somit 
werden die statistischen Modelle zur „Remote Diagnose*, zur 
so genannten „Remote Assistance* oder zum ^Remote Research* 
tiber ein Kommunikationsnetz automatisch versendet. Anders 

15 ausgedrUckt wird „Wissen* in Form eines statistischen Modells 
koiDiauniziert und versendet. Wissen ist haufig Wissen liber die 
Zusammenhange und wechselseitigen Abhangigkeiten in einer 
Dom&ne, beispielsweise tiber die Abhangigkeiten in einem 
Prozess. Ein statistisches Modell einer Domane, welches aus 

2 0 den Daten der Datenbank gebildet wird, ist ein Abbild all 
dieser Zusammenhange. Technisch stellen die Modelle eine 
gemeinsame Wahrscheinlichkeitsverteilung der Dimensionen der 
Datenbank dar, sind also nicht auf eine spezielle 
Aufgabenstellung eingeschrankt, sondern stellen beliebige 

25 Abhangigkeiten zwischen den Dimensionen dar. Komprimiert zu 
dem statistischen Modell lasst sich das Wissen Uber eine 
Domane sehr einfach handhaben, versenden, beliebigen Nutzern 
bereitstellen, etc . 

30 Die AuflSsung des Abbildes bzw. des statistischen Modells 
kann entsprechend den Anforderungen des Datenschutzes oder 
den Bedtirfnissen der Partner gewahlt werden. 
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PatentansprOche 

1. Verfahren zum rechnergesttitzten Bereitstellen von 
Datenbankinformation einer ersten Datenbank, 

• bei dem ftir die erste Datenbank ein erstes statistisches 
Modell gebildet wird, welches die statistischen 
Zusammenhange der in der ersten Datenbank enthaltenen 
Datenelemente reprasentiert, 

• bei dem das erste statistische Modell in einem Server- 
Computer gespeichert wird, 

• bei dem das erste statistische Modell von dem Server- 
Computer iiber ein Kommunikationsnetz zu einem Client- 
Computer tibertragen wird, 

• bei dem das empfangene erste statistische Modell von dem 
Client-Computer weiterverarbeitet wird. 

2. Verfahren gemafi Anspruch 1, 

bei dem unter Verwendung des ersten statistischen Modells und 
Datenelementen einer in dem Client-Computer gespeicherten 
zweiten Datenbank ein statistisches Gesamt -Modell gebildet 
wird, welches zumindest .einen Teil der in dem ersten 
statistischen Modell und in der zweiten Datenbank enthaltenen 
statistischen Information aufweist, 

3. Verfahren gemafi Anspruch 1, 

• bei dem ftir eine zweite Datenbank ein zweites 
statistisches Modell gebildet wird, welches die 
statistischen Zusammenhange der in der zweiten Datenbank 
enthaltenen Datenelemente reprasentiert, 

• bei dem das zweite statistische Modell tiber das 
Kommunikationsnetz zu dem Client-Computer libertragen 



Modells und des zweiten statistischen Modells von dem 
Client-Computer ein statistisches Gesamt -Modell gebildet 
wird, welches zumindest einen Teil der in dem ersten 



• 



wird , 

bei dem unter Verwendung des ersten statistischen 
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statistischen Modell und in dem zweiten statistischen 
Modell enthaltenen statistischen Information aufweist. 

4. Verfahren gemafi Anspruch 3, 

• bei dem das zweite statistische Modell in einem zweiten 
Server-Computer gespeichert wird, 

• bei dem das zweite statistische Modell von dem zweiten 
Server-Computer uber ein Kommunikationsnetz zu dem 
Client-Computer ubertragen wird. 

5. Verfahren gemafi einem der Anspruche 1 bis 4, 

bei dem mindestens eines der statistischen Modelle mittels 
eines skalierbaren Verfahrens gebildet wird, mit dem der 
Kompressionsgrad des statistischen Modells verglichen mit den 
in der jeweiligen Datenbank enthaltenen Datenelementen 
einstellbar ist. 

6. Verfahren gemafi einem der Anspruche 1 bis 5, 

bei dem mindestens eines der statistischen Modelle mittels 
eines EM-Lernverf ahrens oder mittels eines 
gradientenbasierten Lernverf ahrens gebildet wird. 

7. Verfahren gemafi einem der Anspruche 1 bis 6, 

bei dem die erste Datenbank oder/und die zweite Datenbank 
Datenelemente aufweist/aufweisen, welche mindestens eine 
technische Anlage beschreiben. 

8. Verfahren gemafi Anspruch 7, 

bei dem die die mindestens eine technische Anlage 
beschreibenden Datenelemente zumindest teilweise an der 
technischen Anlage gemessene Werte darstellen, welche das 
Betriebsverhalten der technischen Anlage beschreiben. 

9. Verfahren zum rechnergesttltzten Bilden eines statistischen 
Modells einer Datenbank, welche eine Vielzahl von 
Datenelementen aufweist, 
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• bei deia ein EM-Lernverf ahren auf die Datenelemente 
durchgeftlhrt wird, so dass zu einem vorgebbaren 
gerichteten Graph statistische Zusammenhange zwischen 
den Datenelementen ermittelt werden, 

• wobei der gerichtete Graph Knoten und Kanten aufweist, 

• wobei die Knoten vorgebbare beobachtbare Datenbank- 
Zustande und nicht beobachtbare Datenbank-ZustSnde 
beschreiben, 

• bei dem im Rahmen des EM-Lernverf ahrens nur die 
Erwartungswerte ermittelt werden zu den beobachtbaren 
Datenbank-Zustanden sowie zu den nicht beobachtbaren 
Datenbank-Zustanden, deren Eltern-Datenbank-Zustande 
beobachtbare Datenbank- Zust&nde sind. 

10. Computer-Anordnung zum rechnergesttltzten Bereitstellen 
von Datenbankinformation einer ersten Datenbank, 

• mit einem Server-Computer, in dem ein erstes 
statistisches Modell, welches fUr eine erste Datenbank 
gebildet ist, gespeichert ist, wobei das erste 
statistische Modell die statistischen Zusammenhange der 
in der ersten Datenbank enthaltenen Datenelemente 
repr&sentiert, 

• mit einem mit dem Server-Computer mittels eines 
Kommunikationsnetz gekoppelten Client-Computer, der 
eingerichtet ist zur Weiterverarbeitung des von dem 
Server-Computer liber das Kommunikationsnetz zu dem 
Client-Computer Ubertragenen ersten statistischen 
Modells . 

11. Computer-Anordnung gemaJi Anspruch 10, 

• bei der in dem Client-Computer eine zweite Datenbank mit 
Datenelementen gespeichert ist, 

• wobei der Client-Computer eine Einheit zum Bilden eines 
statistischen Gesamt -Modells unter Verwendung des ersten 
statistischen Modells und den Datenelementen der zweiten 
Datenbank, aufweist, wobei das statistische Gesamt- 
Modell zumindest einen Teil der in dem ersten 
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statistischen Modell und in der zweiten Datenbank 
enthaltenen statistischen Information aufweist. 

12. Computer-Ariordnung gemali Anspruch 10 , 

• mit einem zweiten Server-Computer, in dem ein zweites 
statistisches Modell, welches fur eine zweite Datenbank 
gebildet ist, gespeichert .ist, wobei das zweite 
statistische Modell die statistischen Zusammenhange der 
in der zweiten Datenbank enthaltenen Datenelemente 
represent iert, 

• wobei der Client-Computer mittels des 
Koramunikationsnetzes mit dem zweiten Server-Computer 
gekoppelt ist, 

• wobei der Client-Computer eine Einheit zum Bilden eines 
statistischen Gesamt-Modells unter Verwendung des ersten 
statistischen Modells und des zweiten statistischen 
Modells, aufweist, wobei das statistische Gesamt -Modell 
zumindest einen Teil der in dem ersten statistischen 
Modell und in dem zweiten statistischen Modell 
enthaltenen statistischen Information aufweist. 
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Beschreibung 

Verfahren und Computer -Anordnung zum Bereitstellen von 
Datenbankinformation einer ersten Datenbank und Verfahren zum 
5 rechnergesttitzten Bilden eines statistischen Abbildes einer 
Datenbank 

Die Erfindung betrifft ein Verfahren und eine Computer- 
Anordnung zum Bereitstellen von Datenbankinformation einer 
10 ersten Datenbank und ein Verfahren zum rechnergesttitzten 
Bilden eines statistischen Abbildes einer Datenbank. 

Heutzutage sind kaum noch Vorgange zu beobachten, die ohne 
UnterstUtzung eines Computers ablaufen. Haufig wird bei 

15 Einsatz eines Computers im Rahmen eines Prozesses der Prozess 
mittels des Computers Uberwacht oder zumindest 
prozessspezif ische Daten von dem Computer auf gezeichnet* und 
protokolliert, beispielsweise Daten tiber die einzelnen 
Prozessschritte des Prozesses und deren Ergebnisse oder 

20 Zwischenergebnisse . 

Beispielsweise wird tiblicherweise in einem Call Center im 
Detail f estgehalten, warm welcher Anruf in dem Call Center 
eingegangen ist, warm der jeweilige eingegangene Anruf von 
25 einem Mitarbeiter des Call Centers bearbeitet wurde, zu 

welchem anderen Mitarbeiter des Call Centers moglicherweise 
weitergeleitet worden ist, etc. 

Ferner werden tiblicherweise in der Pro z ess-Automat isierung 
30 umfangreiche Protokoll-Dateien gebildet, in denen Daten tiber 
die einzelnen Prozesse gespeichert werden. 

Ein drittes Anwendungsgebiet ist in der Telekommunikation zu 
sehen; so werden beispielsweise in den Switches eines 
35 Mobilfunknetzes Protokolldaten tiber den in den Switches 
auftretenden Datenverkehr ermittelt und gespeichert. 
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Schliefilich werden auch in einem Webserver-Computer h^ufig 
Protokolldaten tiber den Datenverkehr, beispielsweise liber die 
Zugrif f shaufigkeit auf von dem Webserver-Computer 
bereitgestellter Information, gebildet. 

5 

Treten im Verlauf eines Prozesses Probleme auf, so wird 
tiblicherweise der Betreiber der Anlage, auf welcher der 
Prozess ausgefuhrt wird, vor Ort versuchen, die Ursache ftir 
die aufgetretenen Probleme zu finden. Gelingt ihm das nicht, 

10 so wendet er sich meist an den Hersteller der Anlage. 

Herstellerseitig ist es zum Auff inden der Problemursache 
erforderlich, auf die protokollierten Prozessdaten, allgemein 
auf die auf gezeichneten Protokolldaten der Anlage 
zuzugreifen. Derzeit hat eine die Protokolldaten enthaltende 

15 Protokolldatei eine erhebliche Grofie, haufig in der 
Grofienordnung einiger Dutzend GByte. Eine solche 
Protokolldatei lasst sich aus diesem Grund nur schlecht zu 
dem Hersteller der Anlage, beispielsweise unter Verwendung 
von FTP (File Transfer Protocol) iibertragen. Selbst wenn 

20 ausreichend schnelle Kommunikationsverbindungen zur Verftigung 
stehen, ist es ftir den Hersteller einer Anlage schwierig und 
teuer, ftir eine grofiere Anzahl von Kunden die 
Protokolldateien zu speichern und zu verarbeiten. 

25 . Auch in anderen Bereichen besteht der Bedarf , zu 
Analysezwecken grofie Datenmengen zu tibertragen, 
beispielsweise tiberall dort, wo grofie Datenbanken offentlich 
zuganglich sind, urn der Of f entlichkeit das Forschen unter 
Verwendung der Datenbankdaten zu ermoglichen. Die 

30 Datenbankdaten konnen Daten sein aus (of f entlichen) 

Forschungsprojekten (beispielsweise Daten einer Gen-Datenbank 
oder einer Protein-Datenbank) , Wetterdaten, demographische 
Daten, Daten, die zum Zwecke einer Raster f ahndung (in diesem 
Fall nur einem begrenzten Kreis befugter Nutzer) zur 

35 Verftigung gestellt werden sollen. Insbesondere der Bereich 
der Biotechnologie ist heutzutage von erheblichem Interesse, 
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Es existieren eine Vielzahl von Datenbanken in diesem 
Bereich. 

Ferner ist es insbesondere aus Grtlnden der Datensicherheit 
5 haufig wtinschenswert, nicht alle konkreten Informationen der 
Datenbankdaten weiterzugeben. 

Eine bekannte MSglichkeit, Informationen einer Datenbank tiber 
ein Koiamunikationsnetz von einem Server-Computer einem 
Client-Computer bereitzustellen, besteht darin, Diagnose- 
oder Statistik-Werkzeuge zur Analyse der in den Datenbanken 
enthaltenen Daten direkt serverseitig zu installieren, welche 
beispielsweise unter Verwendung eines Web-Servers, welcher 
auf dem Server-Computer installiert ist und eines auf einem 
Client-Computer installierten Web-Browser-Programms genutzt 
werden k6nnen. Hierfur konnen so genannte OLAP-Werkzeuge (On- 
Line Analytical Processing-Werkzeuge) eingesetzt werden, 
deren Betrieb allerdings sehr aufwendig und teuer ist. Bei 
einigen OLAP-Werkzeugen ist die zu verarbeitende Datenmenge 
sogar schon so grofl geworden, so dass die OLAP-Werkzeuge 
versagen. 

Ferner ist es fiir den Betreiber einer Anlage sehr unbequem 
und teuer, diese Werkzeuge serverseitig zu betreiben, da das 
25 unmittelbare Interesse an der Information ja bei dem Nutzer 
des Client-Computers liegt und haufig der Betreiber der 
Anlage nicht bereit ist, die zusatzlichen Kosten fur die 
Bereitstellung und Wartung des Server-Computers und der OLAP- 
Werkzeuge zu tragen. 

30 

Weiterhin ist bei einer grofien Anzahl von Client-Computern 
und einer grofien Zahl von Anfragen an den Server-Computer die 
Beantwortung aller Anfragen sehr rechenaufwendig, weshalb die 
Hardware des Server-Computers haufig unakzeptabel teuer ist. 

35 

Der Erfindung liegt das Problem eines effizienten Zugriffs 
auf den Inhalt einer Datenbank iiber ein Koiamunikationsnetz 
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unter Wahrung der Vertraulichkeit der in der Datenbank 
enthaltenen Daten zugrunde. 

Das Problem wird durch ein Verfahren und eine Computer- 
Anordnung zum Bereitstellen von Datenbankinformation einer 
ersten Datenbank sowie durch ein Verfahren zum 
rechnergestUtzten Bilden eines statistischen Modells einer 
Datenbank mit den Merkmalen gemafi den unabhangigen 
PatentansprUchen geldst . 

Das allgemeine Szenario, welches von der Erfindung adressiert 
wird, ist auf folgende Weise charakterisiert : An einem ersten 
Ort A steht eine grofie Menge von in einer Datenbank 
gespeicherten Daten zur Verfugung. An einem zweiten Ort B 
will jemand diese zur Verfugung stehenden Daten nutzen. Der 
Nutzer an dem Ort B ist weniger an einzelnen Datensatzen 
interessiert, sondern in erster Linie an der die 
Datenbankdaten charakterisierenden Statistik. 

Bei einem Verfahren zum rechnergestUtzten Bereitstellen von 
Datenbankinformation einer ersten Datenbank wird fUr die 
erste Datenbank ein erstes statistisches Abbild 
beispielsweise in Form eines gemeinsamen 
Wahrscheinlichkeitsmodells gebildet. Dieses Abbild bzw. 
Modell reprasentiert die statistischen Zusammenhange der in 
der ersten Datenbank enthaltenen Datenelemente . Das erste 
statistische Abbild wird in einem Server-Computer 
gespeichert. Ferner wird das erste statistische Abbild von 
dem Server-Computer uber ein Kommunikationsnetz zu einem 
Client-Computer ubertragen und das empfangene erste 
statistische Abbild wird von dem Client-Computer 
weiterverarbeitet . 

Eine Computer-Anordnung zum rechnergestUtzten Bereitstellen 
von Datenbankinformation einer ersten Datenbank weist einen 
Server-Computer und einen Client-Computer auf, die 
miteinander mittels eines Kommunikationsnetzes gekoppelt 
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sind. In dem Server-Computer ist ein erstes statistisches 
Abbild, welches ftir eine erste Datenbank gebildet ist, 
gespeichert. Das erste statistische Abbild beschreibt die 
statistischen Zusammenhange der in der ersten Datenbank 
enthaltenen Datenelemente . Der Client-Computer ist derart 
eingerichtet, dass mit ihm eine Weiterverarbeitung, 
beispielsweise eine Analyse, des von dem Server-Computer uber 
das Kommunikationsnetz zu dem Client-Computer ttbertragenen 
ersten statistischen Abbildes moglich ist. 

Bei einem Verfahren zum rechnergestUtzten Bilden eines 
statistischen Modells einer Datenbank, welche eine Vielzahl 
von Datenelementen aufweist, kann ein so genanntes EM- 
Lernverf ahren (Expectation Maximisation-Lernverf ahren) auf 
die Datenelemente durchgefiihrt werden, sowie auch alternativ 
andere Lernverf ahren. Die Struktur des gemeinsamen (alle 
Felder in der Datenbank umfassenden) 

Wahrscheinlichkeitsmodells kann im Rahmen des allgemeinen 
Formalismus der Bayesianischen Netze (synonym auch Kausale 
Netze oder allgemeine Graphische Probabilistische Netze) 
festgelegt werden. Hierbei wird die Struktur durch einen 
gerichteten Graphen festgelegt. Der gerichtete Graph weist 
Knoten und die Knoten miteinander in Bezug setzende Kanten 
auf, wobei die Knoten vorgebbare Dimensionen des Modells bzw. 
des Abbildes entsprechend den in der Datenbank vorhandenen 
Wert en beschreiben, Einige Knoten konnen dabei auch nicht 
beobachtbaren Groflen (so genannten latenten Variablen, wie 
sie beispielsweise in [1] beschrieben sind) entsprechen. Im 
Rahmen eines allgemeinen EM-Lernverf ahrens werden fehlende 
oder nicht beobachtbare Grofien durch Erwartungswerte oder 
erwartete Verteilungen ersetzt. Im Rahmen des 
erf indungsgemaflen verbesserten EM-Lernverf ahrens werden nur 
die Erwartungswerte ermittelt zu den fehlenden GroBen, deren 
Eltern-Knoten beobachtbare Werte aus der Datenbank sind. 

Als statistisches Abbild wird vorzugsweise ein statistisches 
Modell verwendet. 
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Unter einem statistischen Modell ist in diesem Zusammenhang 
jedes Modell zu verstehen, das alle statistischen 
Zusammenhange bzw. die gemeinsame H£uf igkeitsverteilung der 
Daten einer Datenbank darstellt (exakt oder approximativ) , 
beispielsweise ein Bayesianisches (oder Kausales) Netz, ein 
Markov Netz oder allgemein ein Graphisches Probabilistisches 
Modell, ein „Latent Variabel Model*, ein statistisches 
Clustering-Modell oder ein trainiertes kttnstliches Neuronales 
Netz. Das statistische Modell kann somit als ein 
vollstandiges, exaktes oder approximatives Abbild der 
Statistik der Datenbank aufgefasst werden. 

Im Zusammenhang der Weiterverarbeitung des statistischen 
Modells durch den Client-Computer bedeutet dies, dass eine 
Analyse nicht wie gemafi dem Stand der Technik basierend auf 
den Datenelementen der Datenbank selbst oder basierend auf 
einem OLAP-Werkzeug erfolgt. Stattdessen werden alle 
gewunschten (bedingten) Wahrscheinlichkeitsverteilungen aus 
dem gemeinsamen Wahrscheinlichkeitsmodell, dem statistischen 
Modell, ermittelt. 

Diese erf indungsgemSfie Vorgehensweise hat insbesondere die 
folgenden Vorteile: 

• Verglichen mit der Datenbank selbst ist das statistische. 
Modell sehr klein, da das statistische Modell ein 
komprimiertes Abbild der Statistik der Datenbank ist 
(nicht der einzelnen Eintrage in der Datenbank) , 
vergleichbar einem gemafi dem JPEG-Standard komprimiertem 
digitalen Bild, welches ein komprimiertes aber 
approximatives Abbild des digitalen Bildes darstellt; 

• Das statistische Modell selbst kann mit wesentlich 
geringerem Hardware-Aufwand sehr schnell evaluiert 
werden. 

Je nach verwendetem Verfahren zum Trainieren des 
statistischen Modells kann eine erhebliche Kompression der 
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Datenbank erzielt werden. Unter Verwendung eines in der 
erzielbaren Kompression skalierbaren Lernverf ahrens wurde 
eine Kompression von bis zu einem Faktor 1000 erreicht, wobei 
die in dem statistischen Modell enthaltene Information 
qualitativ ausreichend war. Die komprimierten statistischen 
Modelle lassen sich somit sehr einfach beispielsweise mittels 
elektronischer Post (E-Mail), FTP (File Transfer Protocol) 
oder anderer Kommunikationsprotokolle zur Datentibertragung 
von dem Server-Computer zu dem Client-Computer tibertragen. 
Das tlbertragene statistische Modell kann somit clientseitig 
zur nachfolgenden statistischen Analyse genutzt werden. 

Der Server-Computer und der Client-Computer kSnnen tiber ein 
beliebiges Kommunikationsnetz, beispielsweise tiber ein 
Festnetz oder tiber ein Mobilfunknetz miteinander zur 
Ubertragung des statistischen Modells gekoppelt sein. 

Die Erfindung ist zum Einsatz in jedem Bereich geeignet, in 
dem es wttnschenswert ist, nicht die gesamten Daten einer 
grofien Datenbank zu tibertragen, sondern nur eine mSglichst 
geringe Datenmenge zu tibertragen bei Erhalt eines moglichst 
grofien Inf ormationsgehalts der tibertragenen Daten 
hinsichtlich der Datenbank, die von den tibertragenen Daten 
beschrieben werden. 

Ein Vorteil der Erfindung ist insbesondere darin zu sehen, 
dass es ermoglicht wird, in einem hohen Mafie die 
Vertraulichkeit von individuellen Eintragen in die Datenbank 
zu gewahrleisten, da nicht alle Datenelemente der Datenbank 
selbst tibertragen werden, sondern nur eine statistische 
Representation der Datenelemente der Datenbank, womit 
clientseitig eine statistische Analyse der Datenbank mSglich 
wird, ohne dass clientseitig die konkreten, mSglicherweise 
geheim zu haltenden Daten verfttgbar sind. 

Ferner kann ein Betreiber beispielsweise einer technischen 
Anlage die statistischen Inhalte der von ihm geftihrten 
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Datenbank einem Nutzer eines Client-Computers unkompliziert 
und in der Regel ohne Verletzung von Datenschutzrichtlinien, 
beispielsweise mittels eines auf dem Server-Computer 
installierten Web-Servers bereitgestellt werden, in welchem 
Fall die statistischen Modelle mittels eines auf einem 
Client-Computer installierten Web-Browser-Programms abgerufen 
werden kfinnen. 

Die Erfindung kann mittels Software, das heifit mittels eines 
Computerprogramms, in Hardware, das heifit mittels einer 
speziellen elektronischen Schaltung, Oder in beliebig 
hybrider Form, das heifit teilweise in Software und teilweise 
in Hardware, realisiert werden. 

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den 
abhangigen Ansprtichen. 

Die folgenden Ausgestaltungen der Erfindung betreffen die 
Verfahren und die Computer-Anordnung . 

Gemafi einer Ausgestaltung der Erfindung ist es vorgesehen, 
unter Verwendung des ersten statistischen Modells und 
Datenelementen einer in dem Client-Computer gespeicherten 
zweiten Datenbank ein statistisches Gesamt-Modell bzw. ein 
statistisches Gesamt-Abbild zu bilden, welches zumindest 
einen Teil der in dem ersten statistischen Abbild und in der 
zweiten Datenbank enthaltenen statistischen Information 
aufweist . 

Gemafi einer anderen Ausgestaltung der Erfindung ist es 
vorgesehen, fur eine zweite Datenbank ein zweites 
statistisches Abbild bzw. ein zweites statistisches Modell zu 
bilden, welches die statistischen Zusammenhange der in der 
zweiten Datenbank enthaltenen Datenelemente reprasentiert .. 
Das zweite statistische Abbild wird uber das 
Kommunikationsnetz zu dem Client-Computer ubertragen und 
unter Verwendung des ersten statistischen Abbildes und des 
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zweiten statistischen Abbildes wird von dem Client-Computer 
ein statistisches Gesamt-Abbild gebildet, welches zumindest 
einen Teil der in dem ersten statistischen Abbild und in dem 
zweiten statistischen Abbild enthaltenen statistischen 
5 Information aufweist. 

Diese Ausgestaltungen der Erfindung tragen beispielsweise 
folgendem allgemeinen erf indungsgemafien Szenario Rechnung, 
dass fast jeder Vorgang in einem Unternehmen, insbesondere 
10 auch jeder Kundenkontakt und jede Bestellung und Auslieferung 
eines Produktes mit Rechneruntersttltzung ablauft. In diesem 
Zusammenhang werden tlblicherweise die Vorgange in dem 
Unternehmen oder jede Aktion eines Kunden im Detail in einer 
Protokolldatei auf gezeichnet, beispielsweise im Rahmen von so 
15 genannten Customer Relationship Management Systemen (CRM- 
Systemen) oder im Rahmen von Supply Chain Management 
Systemen. Die protokollierten Daten stellen fur viele 
Unternehmen ein erhebliches Verm6gen dar. Dement sprechend 
zeigt sich ein Trend der Unternehmen, dass sie ihre Daten, 
20 beispielsweise Daten Uber Kunden, in „Wissen Uber Kunden* 
umsetzen. Es hat sich jedoch gezeigt, dass die in einem 
Unternehmen vorhandenen Informationen beispielsweise iiber 
einen Kunden (aber auch Uber den Betrieb einer technischen 
Anlage oder ahnlichem) nur sehr einseitig ist. Haufig fehlen 
25 wesentliche Attribute aller oder einzelner Kunden oder 
technischen Anlagen, die z.B. ein Zielgruppen-gerechtes 
Marketing, allgemein eine qualitativ hochwertige 
Datenauswertung, erst ermSglichen. Ein Beispiel im Rahmen der 
Kundeninformation ist in dem Alter des Kunden zu sehen oder 
30 in deren Familienstand sowie die Anzahl der Kinder. Es hat 
sich jedoch herausgestellt, dass bei Zusammenfuhren der 
Information mehrerer Datenbanken, seien es Kundendatenbanken 
oder auch Datenbanken mit Informationen Uber technische 
Prozesse, ein erheblich genaueres und vollstandigeres „Bild* 
35 (im Fall des Marketings, ein „Kundenbild* ) ergeben. Die 

gemeinsame Nutzung der Datenbanken bzw. des Wissens mehrerer 
Unternehmen wUrde somit fUr die nachfolgende Auswertung eine 
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erhebliche Verbesserung ermoglichen* Der Austausch von Daten 
liber Unternehmensgrenzen hinweg stellt aber aus folgenden 
Grtinden keine zufrieden stellende Losung ftir das oben 
beschriebene Problem dar: 

• Unternehmen sind tiblicherweise nicht bereit, Details 
tiber ihre Kunden oder ihre technischen Prozesse an 
andere Unternehmen weiterzugeben. Der Kundenstamm eines 
Unternehmens und damit die Detail-Daten tiber die Kunden 
stellen haufig ein wesentliches Unternehmensvermogen 
dar. 

• Ein Austausch der Datenbankdaten bedeutet technisch 
auch, dass grofie Mengen an Daten tibertragen und 
gespeichert werden mlissen. 

© Aus datenschutzrechtlichen Grtinden sind dem Austausch 
von Datenbankdaten, insbesondere von personenbezogenen 
Daten enge Grenzen gesetzt. 

• Selbst wenn Daten zwischen zwei Unternehmen ausgetauscht 
werden, entsteht ohne zusatzliche MaBnahmen zunachst nur 
ftir die Kunden, die in beiden Unternehmen bekannt sind, 
ein verbessertes Bild. Ftir Kunden, die nur in einem 
Unternehmen bekannt sind, bleiben die Daten und damit 
das Bild tiber diese Kunden weiterhin unvollstandig. 

Zusammenfassend ergeben sich somit anschaulich folgende 
erf indungsgemafie Aspekte: 

• Das Wissen tiber Kunden oder Prozesse oder Anlagen, 
allgemein die in einer Datenbank enthaltene Information, 
wird so dargestellt, 

o dass es stark komprimiert und damit technisch auf 
einfachere Weise zwischen den Computern 
austauschbar ist, und 

• dass wesentliche Zusammenhange dargestellt werden, 
dass jedoch Detail-Inf ormationen nur in einem 
def inierbaren MaB wiederzuf inden sind, so dass 
Unternehmen mit weniger Bedenken solche 
Informationen austauschen und keine 
Datenschutzrichtlinien verletzt werden. 
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• Die auf diese Weise dargestellte Information aus 

verschiedenen Quellen (aus verschiedenen Datenbanken) 
kann zu einem Gesamtbild kombiniert werden, welches von 
alien teilnehmenden Unternehmen genutzt werden kann. 

Durch die oben beschriebenen Ausgestaltungen wird es somit 
nunmehr moglich, unter Wahrung des Datenschutzes unter 
Reduzierung der bendtigten Bandbreite zur ttbertragung der 
statistischen Information, diese den Nutzern bereitzustellen, 
welche clientseitig die statistischen Modell zu einem 
Gesamtbild, dem Gesamt -Modell, zusammenfuhren kGnnen. 

GemaB einer anderen Ausgestaltung der Erfindung werden die 
statistischen Modell in unterschiedlichen Server-Computern 
gespeichert und jeweils von dort uber ein Kommunikationsnetz 
zu dem Client-Computer ubertragen. 

In diesem Zusammenhang ist anzumerken, dass die statistischen 
Modelle von den Server-Computer (n) gebildet werden kc-nnen, 
alternativ auch von anderen, moglicherweise speziell dazu 
eingerichteten Computern, in welchem Fall die gebildeten 
statistischen Modellen noch zu den Server-Computer (n) , 
beispielsweise uber ein lokales Netz, ubertragen werden. 

Somit konnen die statistischen Modelle in einem heterogenen 
Netz, beispielsweise im Internet, weltweit auf sehr einfache 
Weise bereitgestellt werden. 

Mindestens eines der statistischen Modelle kann mittels eines 
skalierbaren Verfahrens gebildet werden, mit dem der 
Kompressionsgrad des statistischen Modells verglichen mit den 
in der jeweiligen Datenbank enthaltenen Datenelementen 
einstellbar ist. 

Mindestens eines der statistischen Modelle kann ferner 
mittels eines EM-Lernverf ahrens oder Varianten davon (wie sie 
beispielsweise in [2] beschrieben sind) oder mittels eines 
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gradientenbasierten Lernverf ahrens gebildet werden. 
Beispielsweise kann das so genannte APN-Lernverf ahren 
(Adaptive Probabilistic Network-Lernverf ahren) als 
gradientenbasiertes Lernverf ahren eingesetzt werden. 
Allgemein kSnnen alle Likelihood-basierten Lernverf ahren oder 
Bayesianische Lernverf ahren genutzt werden, wie sie 
beispielsweise in [3] beschrieben sind. Die Struktur der 
gemeinsamen Wahrscheinlichkeitsmodelle kann dabei in Form 
eines Graphischen Probabilistischen Modells (eines 
Bayesianischen Netzes, eines Markov Netzes oder einer 
Kombination davon) spezifiziert werden, Einem Spezialfall 
dieses allgemeinen Formalismus entsprechen so genannte Latent 
Variable Models oder statistische Clustering-Modelle . Daruber 
hinaus kann jedes Verf ahren zum Lernen nicht nur der 
Parameter, sondern auch der Struktur Graphischer 
Probabilistischer Modelle aus verftlgbaren Datenelementen 
genutzt werden, beispielsweise jedes beliebige 
Struktur lernverf ahren [4] und [5] . 

Die erste Datenbank oder/und die zweite Datenbank kann/konnen 
Datenelemente aufweisen, welche mindestens eine technische 
Anlage beschreiben. Die die mindestens eine technische Anlage 
beschreibenden Datenelemente kormen zumindest teilweise an 
der technischen Anlage gemessene Werte darstellen, welche das 
Betriebsverhalten der technischen Anlage beschreiben. 

Gemafi einer Ausgestaltung der erf indungsgemaBen Computer- 
Anordnung ist in dem Client-Computer eine zweite Datenbank 
mit Datenelementen gespeichert. Der Client-Computer weist 
eine Einheit zum Bilden eines statistischen Gesamt-Modells 
unter Verwendung des ersten statistischen Modells und den 
Datenelementen der zweiten Datenbank, auf , wobei das 
statistische Gesamt-Modell zumindest einen Teil der in dem 
ersten statistischen Modell und in der zweiten Datenbank 
enthaltenen statistischen Information aufweist. 
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Gemafi einer anderen Ausgestaltung der erf indungsgemafien 
Computer-Anordnung ist ein zweiter Server-Computer 
vorgesehen, in dem ein zweites statistisches Modell, welches 
filr eine zweite Datenbank gebildet ist, gespeichert ist, 
wobei das zweite statistische Modell die statistischen 
Zusammenhange der in der zweiten Datenbank enthaltenen 
Datenelemente reprasentiert . Der Client-Computer ist mittels 
des Kommunikationsnetzes ebenfalls mit dem zweiten Server- 
Computer gekoppelt. Der Client-Computer weist eine Einheit 
zum Bilden eines statistischen Gesamt-Modells unter 
Verwendung des ersten statistischen Modells und des zweiten 
statistischen Modells, auf, wobei das statistische Gesamt- 
Modell zumindest einen Teil der in dem ersten statistischen 
Modell und in dem zweiten statistischen Modell enthaltenen 
statistischen Information aufweist. 

Ein Ausfiihrungsbeispiel der Erfindung ist in den Figuren 
dargestellt und wird im Folgenden naher erlautert. 

Es zeigen 

Figur 1 ein Blockdiagramm einer Computer-Anordnung gemafi 
einem ersten Ausfiihrungsbeispiel der Erfindung; 

Figur 2 ein Blockdiagramm einer Computer-Anordnung gemafi 
einem zweiten Ausfiihrungsbeispiel der Erfindung; 

Figur 3 ein Blockdiagramm einer Computer-Anordnung gemafi 
einem dritten Ausfiihrungsbeispiel der Erfindung; 

Figur 4 ein Blockdiagramm einer Computer-Anordnung gemafi 

einem vierten Ausfiihrungsbeispiel der Erfindung; und 

Figur 5 ein Blockdiagramm einer Computer-Aiordnung gemafi 
einem fiinften Ausfiihrungsbeispiel der Erfindung. 
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Fig.l zeigt eine Computer-Anordnung 100 gemaJJ einem ersten 
Ausfilhrungsbeispiel der Erfindung. 

Die Computer-Anordnung 100 wird in einem Call Center 
5 eingesetzt. Die Computer-Anordnung 100 weist eine Vielzahl 
von Telefon-Endgeraten 101 auf, welche mittels 
Telefonleitungen 102 mit einem Call-Center-Computer 103, 104, 
105 verbunden sind. In dem Call Center werden die 
Telefonanruf e von Mitarbeitern des Call Centers 

10 entgegengenommen und die Bearbeitung der eingehenden 

Telefonanruf e, insbesondere der Zeitpunkt des eingehenden 
Anruf s, die Dauer, eine Angabe tlber den Mitarbeiter, der den 
Anruf entgegengenommen hat, ein Angabe liber den Grund des 
Anrufs sowie die Art der Bearbeitung des Anrufes oder auch 

15 beliebige andere Angaben werden von den Call-Center-Computern 
103, 104, 105 aufgezeichnet . 

Jeder Call-Center-Computer 103, 104, 105 weist auf 

• eine erste Eingangs-/Ausgangsschnittstelle 106, 107, 108 
20 zum offentlichen Telefonnetz zur Entgegennahme des 

jeweiligen Telefonanruf es, 

• einen Prozessor 109, 110, 111, 

• einen Speicher 112, 113, 114, und 

• eine zweite Eingangs-/Ausgangsschnittstelle 115, 116, 
25 117 zu einem lokalen Netzwerk 121 des Call Centers. 

Die oben genannten Komponenten innerhalb jedes Call-Center- 
Computers 103, 104, 105 sind mittels eines Computerbusses 
118, 119, 120 miteinander gekoppelt. 

30 

Die Call-Center-Computer 103, 104, 105 sind mittels des 
lokalen Netzwerkes 121 mit einem Server-Computer 122 
gekoppelt. Der Server-Computer 122 weist eine erste Eingangs- 
/Ausgangsschnittstelle 123 zu dem lokalen Netzwerk 121, einen 
35 Speicher 124, einen Prozessor 127 sowie eine zur 

Kommunikation tiber das Internet eingerichtete zweite 
Eingangs-/Ausgangsschnittstelle 128 auf, welche Komponenten 
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mittels eines Computerbusses 129 miteinander gekoppelt sind. 
Der Server-Computer 122 dient gemali diesem 

Ausftlhrungsbeispiel als Web-Server-Computer, wie im Folgenden 
noch naher erlautert wird. 

Die von den Call-Center-Computern 103, 104, 105 
aufgezeichneten Daten werden uber das lokale Netzwerk 121 zu 
dem Server-Computer 122 ubertragen und dort in einer 
Datenbank 126 gespeichert. 

Ferner ist in dem Speicher 124 noch ein statistisches Modell 
125 gespeichert, welches die statistischen Zusammenhange der 
in der Datenbank 126 enthaltenen Datenelemente reprasentiert . 

Das statistische Modell 125 wird unter Verwendung des an sich 
bekannten EM-Lernverf ahrens gebildet. Andere alternative 
bevorzugt eingesetzte Verfahren zum Bilden des statistischen 
Modells 125 werden im Folgenden noch im Detail beschrieben. 

Gemafi diesem Ausftlhrungsbeispiel der Erfindung wird das 
statistische Modell 125 automatisch in regelmaiiigen 
Zeitintervallen erneut, jeweils basierend auf den aktuellsten 
Daten der Datenbank 126, gebildet. 

Das statistische Modell 125 wird von dem Server-Computer 122 
automatisch zur ubertragung an einen oder an mehrere Client- 
Computer 132 bereitgestellt. Der Client-Computer 132 ist tiber 
eine zweite Kommunikationsverbindung 131, beispielsweise 
einer Kommunikationsverbindung, welche eine Kommunikation 
gemafi dem TCP/IP-Kommunikationsprotokoll ermoglicht, mit der 
zweiten Eingangs-/Ausgangsschnittstelle 128 des Server- 
Computers 122 gekoppelt. 

Der Client-Computer 132 weist ebenfalls eine Eingangs- 
/Ausgangsschnittstelle 133, eingerichtet zur Kommunikation 
gemaft dem TCP/IP-Kommunikationsprotokoll auf sowie einen 
Prozessor 134 und einen Speicher 135. 



WO 2004/044772 




1P2003/011655 



16 

Das in einer elektronischen Nachricht 130 von dem Server- 
Computer 122 an den Client-Computer 132 Ubertragene 
statistische Modell 125 wird in dem Speicher 135 des Client- 
Computers 132 gespeichert. Der Benutzer des Client-Computers 
132 ftthrt nunmehr eine beliebige, nutzerspezif ische 
statistische Analyse auf das statistische Modell 125 und 
damit „indirekt* auf die Daten der Datenbank 12 6 aus, ohne 
dass die grofie Datenbank 12 6 an den Client-Computer 132 
liber tragen werden muss. 

Ziel der clientseitigen statistischen Analyse kann eine 
Optimierung des Call Centers sein. GemaB diesem 
AusfUhrungsbeispiel werden insbesondere Analysen hinsichtlich 
der Beantwortung der folgenden Fragen durchgeftihrt : 

„Nach welcher Wartezeit in einer Warteschlange des Call 
Centers gibt ein Telef onanruf er tiblicherweise auf?* 

„Gibt es regionale oder tageszeitliche Abhangigkeiten 
zwischen den in dem Call Center eingehenden Telef onanruf en?* 

„Zu welchem Zeitpunkt und in Abhangigkeit welcher anderen 
Merkmale treten welche Anfragen auf und wie viele Mitarbeiter 
sollten dementsprechend in dem Call Center bereitstehen?* 

„Welche Routing-Strategien ftthren zu welchen Ergebnissen?* 

Somit werden die Analysen zur Beantwortung der oben genannten 
Fragen von dem Benutzer des Client-Computers 132 
durchgefiihrt . Anschliefiend werden dem Betreiber des Call 
Centers aus den Analyseergebnissen geeignete Mafinahmen zur 
optimierten Betreiben des Call Centers gegeben. 

Fig. 2 zeigt eine Computer-Anordnung 200 gemafi einem zweiten 
AusfUhrungsbeispiel der Erfindung. 
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Di.e Computer-Anordnung 200 wird im Bereich der Biotechnologie 
eingesetzt. 

Die Computer-Anordnung 200 weist einen Server-Computer 2 01 
auf, der einen Speicher 202, einen Prozessor 203 sowie eine 
zur Kommunikation gemaB den TCP/IP-Protokollen eingerichtete 
Eingangs-/Ausgangsschnittstelle 204 auf. Die Komponenten sind 
mittels eines Compute rbusses 205 miteinander gekoppelt. 

In dem Speicher 202 ist eine Datenbank 206 mit genetischen 
Sequenzen oder Aminosauresequenzen zusammen mit den Sequenzen 
zugeordneten Zusatzinf ormationen gespeichert. 

FUr einen Forscher, gemafl diesem Ausfiihrungsbeispiel ein 
Nutzer eines der Client-Computer 209, 210, 211, der die 
Eigenschaften einer (neuen) Sequenz untersucht, ist es haufig 
von erheblichem Interesse, Sequenzen mit gleichen oder 
ahnlichen Eigenschaften zu finden. Zum Durchsuchen der von 
dem oder den Server-Computern 201 Offentlich bereitgestellten 
Datenbanken stellt der Forscher mittels des uber ein 
Kommunikationsnetz 208 mit dem Server-Computer 201 
gekoppelten Client-Computers 209, 210, 211 entsprechende 
Such-Anfragen an den oder die Server-Computer 202. In dem 
Server-Computer 201 ist ein statistisches Modell 207 auf die 
gleiche Weise wie gemaft dem ersten Ausfiihrungsbeispiel 
gebildet worden und dort gespeichert. 

Jeder Client-Computer 209, 210, 211 weist auf 

o eine zur Kommunikation gemafl den TCP/IP-Protokollen 

eingerichtete Eingangs-/Ausgangsschnittstelle 212, 213, 

214, 

• einen Prozessor 215, 216, 217, 

• einen Speicher 218, 219, 220. 

Nach erfolgter Anfrage eines Client-Computers 209, 210, 211 
tibertragt der Server-Computer 201 das statistische Modell 206 
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an den Client-Computer 209, 210, 211 in einer elektronischen 
Nachricht 221, 222, 223. 

Nach Empfang des statistischen Modells 206 wird von dem 
Nutzer des Client-Computers 209, 210, 211 die von ihm zu 
untersuchende Sequenz mit dem statistischen Modell 20 6 
verglichen. Ergebnis einer statistischen Analyse ist eine 
Angabe, wie viele ausreichend ahnliche Sequenzen in der 
Datenbank 2 06 existieren und durch welche Eigenschaf ten diese 
Sequenzen sich auszeichnen. 

Fig. 3 zeigt eine Computer-Anordnung 300 gemaii einem dritten 
Ausflihrungsbeispiel der Erfindung. 

Die Computer-Anordnung 300 weist einen ersten Computer 301 
und einen zweiten Computer 309 auf . 

Der erste Computer 301 weist einen Speicher 302, einen 
Prozessor 303 sowie eine zur Kommunikation gemafi den TCP/IP- 
Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 304 auf, welche mittels eines 
Computerbusses 305 miteinander gekoppelt sind. 

Der erste Computer 301 ist ein Computer eines Autohauses, 
welches in der in dem Speicher 302 gespeicherten Kunden- 
Datenbank Informationen zu Vorname und Nachname der Kunden, 
tiber Wohnort und genutzten Fahrzeugtyp, nicht jedoch tfber 
Alter, Familienstand und Gehaltseingang enthait. 

Der zweite Computer 309 weist eine zur Kommunikation gemaii 
den TCP/IP-Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 310, einen Speicher 311 und einen 
Prozessor 312 auf, welche mittels eines Computerbusses 313 
miteinander gekoppelt sind. 

Der zweite Computer 309 ist ein Computer einer mit dem 
Autohaus kooperierenden Bank. In dem Speicher 311 des zweiten 
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Computers 309 ist eine zweite Kunden-Datenbank 314 
gespeichert. In der zweiten Kunden-Datenbank 314 sind zu den 
Kunden der Bank Informationen zu Vorname und Nachname der 
Kunden, deren Wohnort, Familienstand, Alter und 
5 Gehaltseingang, enthalten, nicht jedoch zu dem von dem 

jeweiligen Kunden genutzten Fahrzeugtyp. Die Bank kann somit 
aus ihren gespeicherten Daten nicht ermitteln, welche 
Familien mit welchem Gehaltseingang typischerweise welche 
Autos nut z en. 

10 

Um diese Informationen zu erhalten, ware die Zusammenlegung 
der beiden Kunden-Datenbanken erf order lich, was jedoch aus 
Datenschutz-rechtlichen Grunden nicht gestattet ist und von 
den beiden Firmen tiblicherweise auch nicht erwiinscht ist. 

15 

Erf indungsgem&fi wird ausgenutzt, dass in beiden Datenbanken 
das Wissen jedenfalls approximativ vorhanden ist, urn einen 
Zusammenhang beispielsweise zwischen Fahrzeugtyp und 
Gehaltseingang herzustellen. 

20 

In dem ersten Computer wird aus diesem Grund liber die 
Datenbank ein statistisches Modell 30 6 gemafl dem EM- 
Lernverf ahren gebildet. Das gegentiber der Datenbank 
komprimierte statistische Modell 306 wird zu dem zweiten 
25 Computer 309, welcher mit dem ersten Computer 301 

bidirektional tiber das Internet 308 gekoppelt ist, in einer 
elektronischen Nachricht 307 Ubertragen. 

Nach Empfang des statistischen Modells 30 6 wird dieses von 
30 dem zweiten Computer 309 mit der zweiten Kunden-Datenbank 314 
zu einem statistischen Gesamt -Modell 315 zusammengefiihrt . 

Zur Erlauterung des Zusammenftihrens des statistischen Modells 
306 mit der zweiten Kunden-Datenbank 314 zu dem statistischen 
35 Gesamt -Modell 315 wird angenommen, dass zwei Partner A und B 
statistische Modelle austauschen wollen. Der Partner A 
verftigt uber die Attribute W, X, Y, welche symbolisch ftlr 
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eine Vielzahl beliebiger Attribute stehen. Der Partner B 
verftigt tiber die Attribute X, Y, Z. Der Partner B (gemafi 
diesem Ausftlhrungsbeispiel das Autohaus) stellt dem Partner A 
(gemaii diesem Ausftlhrungsbeispiel die Bank) ein statistisches 
5 Modell seiner Daten zur Verfiigung, das im Folgenden mit 
Pb( x /Y,Z) bezeichnet wird. 

Ziel des Partners A ist es, aus seinen Daten zusaramen mit den 
Daten seiner Datenbank ein statistisches Gesamt -Modell 
10 P(W,X,Y,Z) zu erstellen. 

Hierzu sind gemafi diesem Ausftlhrungsbeispiel die folgenden 
zwei Verfahren vorgesehen: 

• Der Partner A leitet aus dem statistischen Modell 
15 P B (X,Y,Z) ein bedingtes Modell P B (Z|X,Y) ab, urn unter 

dessen Verwendung aus den ihm bekannten Informationen X 
und Y seiner Kunden die Eigenschaft Z seiner Kunden zu 
schatzen. Jeder Kunde bekommt als Wert der Variable Z 
(als Eintrag in einer zusatzlichen Spalte in der 
20 Datenbank) den Wert zugeordnet, der nach Mafigabe der 

Wahrscheinlichkeitsverteilung Pb(Z|X,Y) am 
wahrscheinlichsten ist. Mit den auf diese Weise 
erganzten Informationen W, X, Y und Z tiber jeden Kunden 
kann der Partner A nunmehr tibliche statistische 
25 Analyseverf ahren hinsichtlich aller vier Attribute 

anwenden oder ein gemeinsames statistisches Modell, das 
Gesamt -Modell Pb(W,X,Y,Z), welches anschaulich ein 
virtuelles gemeinsames Datenbank-Abbild darstellt, 
erstellen. 

30 o Statt ftlr das Attribut Z den wahrscheinlichsten Wert zu 
erganzen, kann es in einer alternativen Vorgehensweise 
sinnvoller sein, an Stelle der fehlenden Variable Z eine 
ganze Verteilung tiber seine Werte zu erganzen und beim 
Erzeugen des statistischen Gesamt -Modells zu verwenden. 

35 Urn in diesem Zusammenhang teilweise fehlende Information 

statistisch konsistent im Sinne der so genannten 
Likelihood eines Modells zu handhaben, wird das EM- 
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Lernverfahren eingesetzt. In jedem Lernschritt des 
iterativen EM-Lernverfahrens werden basierend auf den 
aktuellen Parametern Schatzungen (Expected Sufficient 
Statistics) uber die fehlenden Groflen erzeugt, die an 
die Stelle der fehlenden GrSfien treten. In dem EM- 
Lernverfahren kann das bedingte Modell P B (Z|X,Y) dazu 
verwendet werden, auch fur die Variable Z 
Erwartungswerte oder Expected Sufficient Statistics- 
Werte zu ermitteln und so dieses Lernverfahren 
konsistent zu erweitern, urn ein gemeinsames Modell 
verteilter Daten zu erzeugen. 

Somit hat die Bank nunmehr die gesamte statistische 
Information verftigbar und kann entsprechende Analysen uber 
die Daten durchfUhren. 

In diesem Zusammenhang ist anzumerken, dass das oben 
beschriebene Szenario auch umgekehrt durchgefiihrt werden 
kann, d.h. dass die Bank ein statistisches Modell uber die 
zweite Kunden-Datenbank erstellt und dieses an das Autohaus 
ubermittelt, welches seinerseits ein statistisches Gesamt- 
Modell bildet. Fur das Autohaus ware es beispielsweise 
wunschenswert, das Alter seiner Kunden zu kennen, deren 
Familienstand und deren Gehaltseingang, oder jedenfalls eine 
Schatzung des Alters, des Familienstandes und des 
Gehaltseingangs. Basierend auf diesen Informationen konnen 
den Kunden somit passende Produkte viel gezielter angeboten 
werden, beispielsweise ist einer jungen Familie mit einem 
durchschnittlichen Gehaltseingang sicherlich ein anderes Auto 
anzubieten als einem Single mit einem hohen Gehalt. 

Fig. 4 zeigt eine Compute r-Anordnung 400 gemaB einem vierten 
AusfUhrungsbeispiel der Erfindung. 



Gemaii diesem Ausftihrungsbeispiel sind eine Vielzahl von n 
Computern 401, 413, 420 vorgesehen, die jeweils in 
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Obereinstimmung mit dem dritten Ausf uhrungsbeispiel eine 
Kunden-Datenbank f iihren . 

Der erste Computer 401 weist einen Speicher 402, einen 
5 Prozessor 403 sowie eine zur Kommunikation gemafi den TCP/IP- 
Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 404 auf, welche mittels eines 
Computerbusses 405 miteinander gekoppelt sind. 

Der erste Computer 4 01 ist ein Computer eines Autohauses, 
welches in der in dem Speicher 402 gespeicherten Kunden- 
Datenbank Informationen zu Vorname und Nachname der Kunden, 
tiber Wohnort und genutzten Fahrzeugtyp, nicht jedoch uber 
Alter, Familienstand und Gehaltseingang enthalt. 

Ober die Kunden-Datenbank wird von dem ersten Computer 401 
ein erstes statistisches Modell 406 gebildet und in dem 
Speicher 402 gespeichert.' 

Der zweite Computer 413 weist einen Speicher 414, einen 
Prozessor 415 sowie eine zur Kommunikation gemaii den TCP/IP- 
Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 416 auf, welche mittels eines 
Computerbusses 417 miteinander gekoppelt sind. 

Der zweite Computer 413 ist ein Computer einer Bank, welche 
in der in dem Speicher 414 gespeicherten Kunden-Datenbank die 
im dritten AusfUhrungsbeispiel genannten Informationen 
enthalt. t)ber die zweite Kunden-Datenbank wird von dem 
zweiten Computer 413 ein zweites statistisches Modell 418 
gebildet und in dem Speicher 414 gespeichert. 

Der n-te Computer 420 hat ebenfalls eine Kunden-Datenbank 
gespeichert. Der n-te Computer 420 weist einen Speicher 421, 
35 einen Prozessor 422 sowie eine zur Kommunikation gemafi den 
TCP/IP-Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnitts telle 423 auf, welche mittels eines 
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Compute rbusses 424 miteinander gekoppelt sind, Ober die 
Kunden-Datenbank in dem n-ten Computer 420 ist ebenfalls 
mittels des EM-Lernverf ahrens ein statistisches Modell 425 
gebildet und in dem Speicher 421 des n-ten Computers 420 
gespeichert . 

Die Computer 401, 413, 420 sind mittels einer jeweiligen 
Kommunikationsverbindung 408 mit einer Client-Computer 409. 

Der Client-Computer 4 09 weist einen Speicher 411, einen 
Prozessor 412 sowie eine zur Kommunikation gemaB den TCP/IP- 
Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 410 auf, welche mittels eines 
Computerbusses 42 6 miteinander gekoppelt sind. 

Die Computer 401, 413, 420 tibermitteln die statistischen 
Modelle 406, 418, 525 an den Client-Computer 409 in 
jeweiligen elektronischen Nachrichten 407, 419, 427, welcher 
diese in dessen Speicher 410 speichert. 

Im Folgenden wird zur einfacheren Darstellung das 
Ausftihrungsbeispiel nur unter Berticksichtigung des ersten 
statistischen Modells 406 und des zweiten statistischen 
Modells 418 naher erlautert. Es ist jedoch anzumerken, dass 
erf indungsgemaii eine beliebige Anzahl statistischer Modelle 
zu einem Gesamt -Modell zusammengeftihrt werden kann, 
beispielsweise mittels wiederholten Durchfiihrens der im 
Folgenden beschriebenen Verf ahrensschritte . 

Im Unter schied zu dem dritten Ausfiihrungsbeispiel ist es 
gemafi dem dritten Ausftihrungsbeispiel das Ziel, mehrere 
statistische Modelle miteinander zu einem Gesamt -Modell zu 
kombinieren. 

Somit wird in Anlehnung an die im dritten Ausf iihrungsbeispiel 
verwendeten Nomenklatur von dem Partner A ebenfalls ein 
statistisches Modell Pa(W,X,Y) erstellt und dann werden die 



WO 2004/044772 




:P2003/011655 



24 

Modelle P A (W,X,Y) und P B (X,Y,Z) zu einem statistischen 
Gesamt-Modell P(W,X,Y,Z) kombiniert . 

Das Gesamt-Modell P(W,X,Y,Z) kann basierend auf den beiden 
5 Modellen P A (W,X,Y) und P B (X,Y,Z) definiert werden als: 

• P(W,X,Y,Z) = P A (W,X,Y)P B (Z|X,Y) oder als 

• P(W,X,Y,Z) = P B (X,Y,Z)P A (W|X,Y) . 



Auch Kpmbinationen aus beiden Vorgehensweisen sind 
10 erf indungsgemafi vorgesehen. Far den Partner A ist es am 

sinnvollsten, die erste obige Alternative zu wahlen. Damit 
verfUgt er Uber ein statistisches Gesamt-Modell 42 6, welches 
ihm in einer approximativen Weise ermoglicht, auch die 
Abhangigkeiten zwischen den Attributen W und Z zu analysieren 
15 (in diesem AusfUhrungsbeispiel die Abhangigkeit zwischen 

Fahrzeugtyp und Gehaltseingang) . Basierend auf dem Gesamt- 
Modell 42 6 werden beispielsweise bedingte 

Wahrscheinlichkeitsverteilungen der Form P(X|Z), z.B. eine 
Verteilung Uber oder eine Affinitat zu Fahrzeugtypen bei 
20 einem gegebenen Gehaltseingang, ermittelt. Hierzu wird Uber 
die Variablen X und Y marginalisiert . 

Zur Erlauterung wird angenommen, dass die Ergebnisse aus dem 
Gesamt-Modell 42 6 in einer Art eines zweistufigen Prozesses 

25 zustande kommen. Zunachst wird aus der Variable W auf die 
gemeinsamen Variablen X und Y basierend auf dem Modell 
P A (W,X,Y) geschlossen. Entsprechend alien danach erlaubten 
Kombinationen fur die Variablen X und Y wird die bedingte 
Wahrscheinlichkeitsverteilung P B (Z|X,Y) (Pradiktion der 

30 Variable Z aus den Variablen X und Y) genutzt, um die 
Verteilung fUr die Variable Z zu bestiramen. 



Im Unterschied zu dem Fall, in dem alle vier Variablen in 
einer Datenbank zu finden sind, erfolgt die Schlussf olgerung 
35 somit erf indungsgemafi indirekt; ahnlich wie bei einer 
FlUsterpost konnen dabei Inf ormationen verloren gehen. 
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Im schlimmsten Fall, namlich wenn kein Uberlapp zwischen den 
beiden statistischen Abbildern vorliegt, dann ist auch keine 
Kombination der beiden Modelle moglich. Allerdings ist 
5 beispielsweise ftir den Fall, dass gemeinsame Variablen in den 
beiden Modellen vorhanden sind, moglich, ein Gesamt -Model 1 zu 
bilden, selbst wenn in den beiden Ausgangs-Datenbanken keine 
gemeinsamen Kunden, beispielsweise kein gemeinsamer 
Kundens chilis s el, vorhanden ist. 

10 

Das Gesamt -Modell 426 P(W,X,Y, Z) kann numerisch einfach 
gehandhabt werden, wenn der Uberlapp zwischen diesen 
statistischen Modellen nicht zu groii ist, vorzugsweise 
kleiner als 10 gemeinsame Variablen. In dem Fall eines grofien 
15 „t)berlapp-Raums* konnen zusatzliche Approximationen verwendet 
werden, urn die Ausftihrung der folgenden Summen zu 
beschleunigen, welche gemafi den obigen Ausfuhrungsbeispielen 
iiber alle gemeinsamen Zustande der gemeinsamen Variablen X 
und Y gebildet werden mussen: 

20 

P(w|z) oc ]T ?a( w ' x ' y ) • %( Z I X ' Y ) 
x,y 

bzw. 

25 P(W, Z) = £ *k( W ' X ' y ) ' VB^' Y ) • 
x,y 

Die Summen kSnnen insbesondere sehr geschickt approximiert 
werden basierend auf einem Ansatz durch Einfuhren einer 
zusatzlichen kUnstlichen Variable H und zusatzlichen 
30 bedingten Verteilungen (Tafeln im Falle diskreter Variable) 
p(h|x, y) und p(z|h) der Form: 

PapproxC* Z) « S X, Y)£ P(H I X, Y) - Efe(Z | H) 

x,y h 
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bzw. 

PapproxW' X ' Y / z > * *aW' X ' y >Z P(H 1 X ' Y) *k (z 1 H) • 

h 

Die Struktur bzw. die Parametrisierung der bedingten 
Verteilungen p(h|x, y) und p(z|h) bzw. die Form der Abhangigkeit 

zwischen X,Y und H einerseits und H und Z andererseits wird 
so gewahlt, dass die obigen Summen einfach auszuftihren sind. 
Die Parameter der bedingten Verteilungen p(h|x, y) und p(z|h) 

werden so bestimmt, dass die approximative Gesamtverteilung 
p approx( w ' x ' Y ' z > moglicht gut der gewtinschten Verteilung 

p(w, x, y, z) = Ek(w, x, y) • PeCzjx, y) 

entspricht. Als Kostenfunktion kann hierbei insbesondere die 
Log-Likelihood bzw. die Kullback-Leibler-Distanz verwendet 
werden. Als Optimierungsverf ahren bieten sich daher wiederum 
ein EM-Lernverf ahren oder ein Gradienten-basiertes 
Lernverf ahren an. 

Das Auffinden optimaler Parameter kann und darf durchaus 
rechenaufwendig sein. Sobald die beiden 
Wahrscheinlichkeitsmodelle dann zu einem Gesamtmodell 
„fusioniert* sind kann das Gesamtmodell in einer sehr 
effizienten Art und Weise genutzt werden. 

Es bietet sich insbesondere an, die Variable H als eine 
versteckte Variable einzuftthren, also die Verteilung 
P(W,X,Y,H) zu parametrisieren als 

p(w, X, Y, h) = p(h) - p(w, x, y|h) 

mit einer so genannten a priori Verteilung P (H) . 

In dem Fall in dem das Modell P(W,X,Y) bereits ursprUnglich 
als ein Latent Variable Model parametrisiert wurde, 
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Ik(W f X, Y) = £ *A< X ' Y, Z | H) ■ P^H) , 
h 

kann unmittelbar die bereits vorhandene latente Variable H 
genutzt werden. 

Statt einer versteckten Variable H konnen auch mehrere 
Variablen eingeftihrt werden. Gleichzeitig kann auch fUr das 
Modell PB zur Vereinf achung der Numerik eine versteckte 
Variable K eingeftihrt werden. Eine Approximation des 
Gesamtmodells P (W,X,Y,Z) nimmt damit z.B. die Form an 

P(W, X, Y, Z) » £ Y, Z | H) ■ Pa(H)2 P(K I H) • Pb(Z | K) . 

h k 

In diesem Modell konnen Suramen tiber den Raum des Uberlapps 
bestehend aus X und Y einfach durch bekannte 
Inferenzverf ahren (beispielsweise das so genannte Junction- 
Tree-Verf ahren) ausgeftihrt werden. Fur die Fusion der beiden 
Modelle ist lediglich die bedingte Verteilung p(k|h) durch 

bekannte Lernverf ahren zu bestimmen. 

Urn das Ziel zu erreichen kleine, austauschbare jedoch aber 
sehr genaue „Abbilder einer Datenbank* zu generieren, sind 
insbesondere sehr skalierbare Lernverf ahren, die hoch 
komprimierte Abbilder generieren, erwunscht. Gleichzeitig 
sollen sich die Abbilder effizient fusionieren, d.h. 
zusammenftihren las sen, wozu man insbesondere auch sehr 
effizient mit fehlenden Inf ormationen umgehen konnen sollte. 
Bekannte Lernverf ahren sind insbesondere dann langsam, wenn 
in den Daten viele der Belegungen der Felder fehlen. 

Fig. 5 zeigt eine Computer-Anordnung 500 gemafi einem ftinften 
Ausftihrungsbeispiel der Erfindung. 
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Die Computer-Anordnung .500 wird im Rahmen des Austauschs von 
Kundeninformation, gemafi diesem AusfUhrungsbeispiel im Rahmen 
des Austauschs von Adressinf ormation von Kunden, eingesetzt. 
Die Computer-Anordnung 50 0 weist einen Server-Computer 501. 
sowie einen oder mehrere mit diesem tlber ein 
Telekommunikationsnetz 502 verbundenen Client-Computer 503 
auf • 

Der Server-Computer 501 weist einen Speicher 504, einen 
Prozessor 505 sowie eine zur Kommunikation Uber das Internet 
eingerichtete Eingangs-/Ausgangsschnittstelle 506 auf, welche 
Komponenten mittels eines Computerbusses 507 miteinander 
gekoppelt sind, Der Server-Computer 501 dient gemafi diesem 
AusfUhrungsbeispiel als Web- Server-Computer, wie im Folgenden 
noch naher erlautert wird. 

In dem Speicher 504 ist eine grofie Kunden-Datenbank 508 
(insbesondere mit Adressinf ormation liber die Kunden und das 
Kaufverhalten der Kunden beschreibende Information) 
gespeichert. Ferner ist in dem Speicher 504 noch ein 
statistisches Modell 509, welches von dem Server-Computer 501 
Uber die Kunden-Datenbank 508 gebildet worden ist, 
gespeichert, welches die statistischen Zusammenhange der in 
der Kunden-Datenbank 508 enthaltenen Datenelemente 
reprasentiert . 

Das statistische Modell 509 wird unter Verwendung des an sich 
bekannten EM-Lernverf ahrens gebildet. Andere alternative 
bevorzugt eingesetzte Verfahren zum Bilden des statistischen 
Modells 509 werden im Folgenden noch im Detail beschrieben. 

Gemafi diesem AusfUhrungsbeispiel der Erfindung wird das 
statistische Modell 509 automatisch in regelmafiigen 
vorgegebenen Zeitintervallen erneut, jeweils basierend auf 
den aktuellsten Daten der Kunden-Datenbank 508, gebildet. 
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Das statistische Modell 509 wird von dem Server-Computer 501 
automatisch zur Obertragung an den oder an mehrere Client- 
Computer 503 bereitgestellt . 

5 Der Client-Computer 503 weist ebenfalls eine Eingangs- 

/Ausgangsschnittstelle 510, eingerichtet zur Kommunikation 
gemaii dem TCP/IP-Kommunikationsprotokoll auf sowie einen 
Prozessor 511 und einen Speicher 512. Die Komponenten des 
Client-Computers sind mittels eines Computerbusses 513 
10 miteinander gekoppelt. 

Das in einer elektronischen Nachricht 514 von dem Server- 
Computer 501 an den Client-Computer 503 Obertragene 
statistische Modell 509 wird in dem Speicher 512 des Client- 
15 Computers 503 gespeichert. 

In diesem Zusammenhang ist anzumerken, dass in dem 
statistischen Modell 509 die Details der Kunden-Datenbank 
508, insbesondere die tatsachlichen Adressen der Kunden, 
20 nicht enthalten ist. Das statistische Modell 509 enthalt 
allerdings statistische Information Uber das Verhalten, 
insbesondere tlber das Kauf verhalten der Kunden. 

Der Benutzer des ' Client-Computers 503 wahlt nunmehr eine ftir 
25 ihn interessante Gruppe von Kunden, d.h. einen ftir ihn 

interessanten Teil 515 des statistischen Modells 509, der ein 
far das Unternehmen des Benutzers des Client-Computers 503 
interessierendes Kaufverhalten beschreibt, aus . Die 
Information 515 uber den ausgew&hlten Teil des statistischen 
30 Modells 509 tibertragt der Client-Computer 503 in einer 

zweiten elektronischen Nachricht 516 zu dem Server-Computer 
501. 

Unter Verwendung der empfangenen Information liest der 
35 Server-Computer 501 die mittels des Teils 515 des 

statistischen Modells 509 bezeichneten Kunden und die 
zugehorige Kunden-Detailinformation 517, insbesondere die 
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Adressen der Kunden, aus der Kunden-Datenbank 508 aus und 
tibermittelt die ausgelesene Kunden-Detailinf ormation 517 in 
einer dritten elektronischen Nachricht 518 zu dem Client- 
Computer 503. 

Auf diese Weise ist es moglich, beispielsweise filr eine 
Marketing-Kampagne seitens des Benutzers des Client-Computers 
503 gezielt die Adressen der gemaB der Kunden-Datenbank 508 
fur die Kampagne interessantesten Kunden des Unternehmens des 
Server-Computers 501 auszuwahlen und von dem Server-Computer 
501 zu erbitten. Ein erheblicher Vorteil ist ferner darin zu 
sehen, dass der Server-Computer 501 nur die Inf ormationen an 
den Client-Computer 503 tibermittelt/ die auch an diesen 
ttbermittelt werden diirfen. 

Diese Ubermittlung erfolgt gemafi einer Ausgestaltung der 
Erfindung gegen Bezahlung. Anders ausgedrUckt wird somit eine 
sehr effizientes so genanntes „On-Line Listbroking* 
realisiert. 

Im Folgenden werden verschiedene skalierbare Verfahren zum 
Bilden eines statistischen Modells angegeben. 

Zur besseren Veranschaulichung der bevorzugt eingesetzten 
Verbesserung eines EM-Lernverf ahrens im Falle eines Naiven 
Bayesianischen Cluster Modells werden im Folgenden einige 
Grundlagen des EM-Lernverf ahrens naher erlautert: 

Mit X = {Xfc, k = 1, ...,k} wird einen Satz von K statistischen 
Variablen (die z.B. den Feldern einer Datenbank entsprechen 
k5nnen) bezeichnet . 

Die Zustande der Variablen werden mit kleinen Buchstaben 
bezeichnet. Die Variable Xi kann die Zustande x^i, xi,2* ••- 
annehmen, d.h. Xi e 1 = ^•••/ L l}- L l ist die Anzahl der 

Zustande der Variable Xi. Ein Eintrag in einem Datensatz 
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•(einer Datenbank) besteht nun aus Werten ftlr alle Variablen, 
wobei x u s x£, X3, ...] den 71-ten Datensatz bezeichnet. In 

dem 7C-ten Datensatz ist die Variable Xi in dem Zustand x£, 

die Variable X2 in dem Zustand x£ , usw. Die Tafel hat M 

Eintr&ge, d.h. \t % ,n = 1, ...,m}. Zusatzlich gibt es eine 
versteckte Variable oder eine Cluster-Variable, die im 
Folgenden mit CI bezeichnet wird; deren Zustande sind 
i = 1, ...,n). Es gibt also N Cluster. 

In einem statistischen Clustering-Modell beschreibt P(Q) eine 
a priori Verteilung; P(©i) ist das a priori Gewicht des i-ten 
Clusters und p(x|a>i) beschreibt die Struktur des i-ten 

Clusters oder die bedingte Verteilung der beobachtbaren (in 
der Datenbank enthaltenen) Groiien X = (x k , k = 1, ...,k) in dem 
i-ten Cluster. Die a priori Verteilung und die bedingten 
Verteilungen fttr jedes Cluster parametrisieren zusammen ein 
gemeinsames Wahrscheinlichkeitsmodell auf X u £2 bzw. auf X. 

In einem Naiven Bayesian Network wird vorausgesetzt, dass 
K 

p(x|o>i) mit Y[ p( x k|®i) faktorisiert werden kann. 
k=l 

Im Allgemeinen wird darauf gezielt, die Parameter des 
Modells, also die a priori Verteilung p(£2) und die bedingten 
Wahrscheinlichkeitstaf ein p(x|co) derart zu bestimmen, dass das 
gemeinsame Modell die eingetragenen Daten moglichst gut 
widerspiegelt . Ein entsprechendes EM-Lernverf ahren besteht 
aus einer Reihe von Iterationsschritten, wobei in jedem 
Iterationsschritt eine Verbesserung des Modells (im Sinne 
einer so genannten Likelihood) erzielt wird. In jedem 
Iterationsschritt werden neue Parameter p neu (...) basierend 
auf den aktuellen oder ^alten" 1 ■ Parametern p alt (.-0 geschatzt. 

Jeder EM-Schritt beginnt zunachst mit dem E-Schritt, in dem 
^Sufficient Statistics* in daftir bereitgehaltenen Tafeln 
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ermittelt werden. Es wird mit Wahrscheinlichkeitstaf eln 
begonnen, deren EintrSLge mit Null-Werten initialisiert 
werden. Die Felder der Tafeln werden im Verlauf des E- 
Schrittes mit den so genannten Sufficient Statistics s(Q) und 
s(x, Q) geftillt, indem fUr jeden Datenpunkt die fehlenden 
Informationen (also insbesondere die Zuordnung jedes 
Datenpunktes zu den Clustern) durch Erwartungswerte erganzt 
werden. 

Um Erwartungswerte ftlr die Clustervariable £2 zu berechnen 
ist die a posteriori Verteilung p alt ^Wi|x 7C J zu ermitteln. 

Dieser Schritt wird auch als „Inf erenzschritt* bezeichnet. 

Im Falle eines Naive Bayesian Network ist die a posteriori 
Verteilung ftir Q nach der Vorschrift 

p^"Ufc«) = ip at (»i)np alt kK) 

^ ' k = l 

ftir jeden Datenpunkt x % aus den eingetragenen Informationen 
zu berechnen, wobei — eine vorgebbare Normierungskonstante 

ist. 

Das Wesentliche dieser Berechnung besteht aus der Bildung des 
Produkts p alt (xj|a>i) tlber alle k = 1, ...,K. Dieses Produkt muss 
in jedem E-Schritt ftir alle Cluster i = 1, ...,N und ftir alle 
Datenpunkte x K , % = 1,...,M gebildet werden. 

Ahnlich aufwendig oft noch aufwendiger ist' der 
Inferenzschritt ftir die Annahme anderer 

Abhangigkeitsstrukturen als einem Naive Bayesian Network, und 
beinhaltet damit den wesentlichen numerischen Aufwand des EM- 
Lernens . 
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Die Eintrage in den Taf eln s(Q) und s(x, £2) andern sich nach 

Bildung des obigen Produktes fur jeden Datenpunkt 

x n ,n = 1, ... , M , da s(a>i) urn p 31 ^©!^ 71 ) fUr alle i addiert 

wird, bzw. eine Summe alle p^^Oilx 7 ^ gebildet wird. Auf 

entsprechende Weise wird s(x, <a±) (bzw. s(x k , <q±) ftlr alle 
Variabeln k im Falle eines Naive Bayesian Network) jeweils um 
p alt ^ffli|x ,t ^ ftir alle Cluster i addiert. Dieses schliefit 

zunachst den E (Expectation) -Schritt ab. 

Anhand dieses Schrittes werden neue Parameter p neu (Q) und 
p neu (x|Q) far das statistische Modell berechnet, wobei p(x|©i) 
die Struktur des i-ten Cluster oder die bedingte Verteilung 
der in der Datenbank enthaltenden Grofien X in diesem i-ten 

Cluster darstellt. 

Im M (Maximisation) -Schritt werden unter Optimierung einer 
allgemeinen log Likelihood 

L = f; log i^i^i) (1) 
ti=1 i=l 

neue Parameter p neu (Q) und p neu (x|Q), welche auf den bereits 
berechneten Sufficient Statistics basieren, gebildet. 

Der M-Schritt bringt keinen wesentlichen numerischen Aufwand 
mehr mit sich. 

Somit ist klar, dass der wesentliche Aufwand des Algorithmus 
in dem Inf erenzschritt bzw. auf die Bildung des Produktes 

Yl p alt ^cjj|©i) und auf die Akkumulierung der Sufficient 
k=l 

Statistics ruht. 
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Die Bildung von zahlreichen Null-Elementen in den 
Wahrscheinlichkeitstafeln p alt (x|coi) bzw. p alt (x] c |coi) lasst 
sich jedoch durch geschickte Datenstrukturen und Speicherung 
von Zwischenergebnissen von einem EM-Schritt zum nachsten 
5 dazu ausnutzen, die Produkte effizient zu berechen. 

Zum Beschleunigen des EM-Lernverf ahrens wird die Bildung 
eines Gesamtproduktes in einem obigem Inf erenzschritt, 
welcher aus Faktoren von a posteriori Verteilungen von 

10 Zugehorigkeitswahrscheinlichkeiten fttr alle eingegebene 

Datenpunkte besteht, wie gewohnlich durchgeftihrt wird, sobald 
die erste Null in den dazu gehorenden Faktoren auftritt, wird 
die Bildung des Gesamtproduktes jedoch abgebrochen. Es lasst 
sich zeigen, dass fur den Fall, dass in einem EM-Lernprozess 

15 ein Cluster fur einen bestimmten Datenpunkt das Gewicht Null 
zugeordnet bekommt, dieser Cluster auch in alien weiteren EM- 
Schritten far diesen Datenpunkt das Gewicht Null zugeordnet 
bekommen wird. 

20 Somit wird eine sinnvolle Beseitigung von iiberf lUssigen 
numerischen Aufwand gewahrleistet, indem entsprechende 
Ergebnisse von einem EM-Schritt zum nachsten 

zwischengespeichert werden und nur fur die Cluster, die nicht 
das Gewicht Null haben, bearbeitet werden. 

25 

Es ergeben sich somit die Vorteile, dass aufgrund des 
Bearbeitungsabbruchs beim Auftreten eines Clusters mit Null 
Gewichten nicht nur innerhalb eines EM-Schrittes sondern auch 
fur alle weiteren Schritte, besonders bei der Bildung des 
30 Produkts im Inf erenzschritt, das EM-Lernverf ahren insgesamt 
deutlich beschleunigt wird. 

Im Verf ahren zur Ermittlung einer in vorgegebenen Daten 
vorhandenen Wahrscheinlichkeitsverteilung werden 
35 ZugehSrigkeitswahrscheinlichkeiten zu bestimmten Klassen nur 
bis zu einem Wert nahezu 0 in einem iterativen Verfahren 
berechnet, und die Klassen mit 



WO 2004/044772 




P2003/011655 



35 

Zugeh5rigkeitswahrscheinlichkeiten unterhalb eines 
auswahlbaren Wertes im iterativen Verfahren nicht weiter 
verwendet . 

In einer Weiterbildung des Verfahrens wird eine Reihenfolge 
der zu berechnenden Faktoren derart bestimmt, dass der 
Faktor, der zu einem selten auf tretenden Zustand einer 
Variabel gehort, als erstes bearbeitet wird. Die selten 
auftretenden Werte konnen vor Beginn der Bildung des Produkts 
derart in einer georcineten Liste gespeichert werden, dass die 
Variabeln je nach Haufigkeit ihrer Erscheinung einer Null in 
der Liste geordnet sind. 

Es ist weiterhin vorteilhaft, eine logarithmische Darstellung 
von Wahrscheinlichkeitstafeln zu benutzen. 

Es ist weiterhin vorteilhaft, eine dtinne Darstellung (sparse 
representation) der Wahrscheinlichkeitstafeln zu benutzen, 
z.B. in Form einer Liste, die nur' die von Null verschiedenen 
Elemente enthalt. 

Ferner werden bei der Berechnung von Sufficient Statistics 
nur noch die Cluster berticksichtigt, die ein von Null 
verschiedenes Gewicht haben. 

Die Cluster, die ein von Null verschiedenes Gewicht haben, 
konnen in eine Liste gespeichert werden, wobei die in der 
Liste gespeicherte Daten Pointer zu den entsprechenden 
Cluster sein kOnnen. 

Das Verfahren kann weiterhin ein Expectation Maximisation 
Lernprozess sein, bei dem in dem Fall dass fur ein Datenpunkt 
ein Cluster ein a posteriori Gewicht „Null m zugeordnet 
bekommt, dieser Cluster in alien weiteren Schritten des EM- 
Verfahrens ftir diesen Datenpunkt das Gewicht Null erhait und 
dass dieser Cluster in alien weiteren Schritten nicht mehr 
berUcksichtigt werden muss. 
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Das Verfahren kann dabei nur noch ttber Cluster laufen, die 
ein von Null verschiedenes Gewicht haben. 

I. Erstes Beispiel in einem Inf erenzschritt 

a) Bildung eines Gesamtproduktes mit Unterbrechung bei 
Nullwert 

Far jeden Cluster o± in einem Inf erenzschritt wird die 
Bildung eines Gesamtproduktes durchgefiihrt . Sobald die erste 
Null in den dazu gehorenden Faktoren, welche beispielsweise 
aus einem Speicher, Array oder einer Pointerliste 
herausgelesen werden konnen, auftritt, wird die Bildung des 
Gesamtproduktes abgebrochen . 

Im Falle des Auftretens eines Nullwertes wird dann das zu dem 
Cluster gehorende a posteriori Gewicht auf Null gesetzt. 
Alternativ kann auch zuerst geprtlft werden, ob zumindest 
einer der Faktoren in dem Produkt Null ist. Dabei werden alle 
Multiplikationen fur die Bildung des Gesamtproduktes nur dann 
durchgefiihrt, wenn alle Faktoren von Null verschieden sind. 

Wenn hingegen bei einem zu dem Gesamtprodukt gehorender 
Faktor kein Nullwert auftritt, so wird die Bildung des 
Produktes wie normal fortgefuhrt und der nachste Faktor aus 
dem Speicher, Array oder der Pointerliste herausgelesen und 
zur Bildung des Produktes verwendet. 

b) Auswahl einer geeigneten Reihenfolge zur Beschleunigung 
der Datenverarbeitung 

Eine geschickte Reihenfolge wird derart gewahlt, dass, falls 
ein Faktor in dem Produkt Null ist, dieser Faktor mit hoher 
Wahrscheinlichkeit sehr bald als einer der ersten Faktoren in 
dem Produkt auftritt • Somit kann die Bildung des 
Gesamtproduktes sehr bald abgebrochen werden. Die Festlegung 
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der neuen Reihenfolge kann dabei entsprechend der Haufigkeit, 
mit der die Zustande der Variablen in den Daten auftreten, 
erfolgen. Es wird ein Faktor der zu einer sehr selten 
auftretenden Zustand einer Variable gehSrt, als erstes 
bearbeitet. Die Reihenfolge, in der die Faktoren bearbeitet 
werden, kann somit einmal vor dem Start des Lernverf ahrens 
festgelegt werden, indem die Werte der Variablen in einer 
entsprechend geordneten Liste gespeichert werden. 

c) Logarithmische Darstellung der Tafeln 

Um den Rechenaufwand des oben genannten Verfahrens moglichst 
einzuschranken, wird vorzugsweise eine logarithmische 
Darstellung der Tafeln benutzt, um beispielsweise Underflow- 
Probleme. zu vermeiden. Mit dieser Funktion k6nnen 
ursprtinglich Null-Elemente zum Beispiel durch einen positiven 
Wert ersetzt werden, Somit ist eine aufwendige Verarbeitung 
bzw. Trennungen von Werten, die nahezu Null sind und sich 
voneinander durch einen sehr geringen Abstand unterscheiden, 
nicht weiter notwendig. 

d) Umgehung von erhohter Summierung bei der Berechnung von 
Sufficient Statistics 

In dem Fall, dass die dem Lernverf ahren zugegebenen 
stochastischen Variablen eine geringe 

Zugehorigkeitswahrscheinlichkeit zu einem bestimmten Cluster 
besitzen, werden im Laufe des Lernverf ahrens viele Cluster 
das a posteriori Gewicht Null haben. 

Um auch das Akkumulieren der Sufficient Statistics in dem 
darauf folgenden Schritt zu beschleunigen, werden nur noch 
solche Cluster in diesem Schritt berticksichtigt, die ein von 
Null verschiedenes Gewicht haben, 

Dabei ist es vorteilhaft, die von Null verschiedenen Cluster 
in einer Liste, einem Array oder einer ahnlichen 
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Datenstruktur gespeichert werden, die es erlaubt, nur die von 
Null verschiedenen Elemente zu speichern. 

II. Zweites Beispiel in einem EM Lernverf ahren 

a) Nicht-Berticksichtigung von Cluster mit Null-Zuordnungen 
ftir einen Datenpunkt 

Insbesondere wird hier in einem EM-Lernverf ahren von einem 
Schritt des Lernverf ahrens zum nachsten Schritt ftir jeden 
Datenpunkt gespeichert, welche Cluster durch Auftreten von 
Nullen in den Tafeln noch erlaubt sind und welche nicht mehr. 

Wo im ersten Beispiel Cluster, die durch Multiplikation mit 
Null ein a posteriori Gewicht Null erhalten, aus alien 
weiteren Berechnungen ausgeschlossen werden, um dadurch 
numerischen Aufwand zu sparen, werden in gemafi diesem 
Beispiel auch von einem EM-Schritt zum nachsten 
Zwischenergebnisse beztiglich Cluster-Zugehorigkeiten 
einzelner Datenpunkte (welche Cluster bereits ausgeschlossen 
bzw. noch zuiassig sind) in zusatzlich notwendigen 
Datenstrukturen gespeichert. 

b) Speichern einer Liste mit Referenzen auf relevante Cluster 

Ftir jeden Datenpunkt oder fiir jede eingegebene stochastische 
Variable kann zunachst eine Liste oder eine ahnliche 
Datenstruktur gespeichert werden, die Referenzen auf die 
relevanten Cluster enthalten, die ftir diesen Datenpunkt ein 
von Null verschiedenes Gewicht bekommen haben. 

Insgesamt werden in diesem Beispiel nur noch die erlaubten 
Cluster, allerdings ftir jeden Datenpunkt in einem Datensatz, 
gespeichert . 

Die beiden obigen Beispiele kdnnen miteinander kombiniert 
werden, was den Abbruch bei „Null* -Gewichten im 
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Inferenzschritt ermoglicht, wobei in folgenden EM-Schritten 
nur noch die zulassigen Cluster nach dem zweiten Beispiel 
berucksichtigt werden. 

5 Eine zweite Variante des EM-Lernverf ahrens wird im Folgenden 
naher erlautert. Es ist darauf hinzuweisen, dass dieses 
Verfahren unabhangig von der Verwendung des auf diese Weise 
gebildeten statistischen Modells ist. 

Bezugnehmend auf das oben beschriebene EM-Lernverf ahren lasst 
sich zeigen, dass das Erganzen fehlender Information nicht 
fiir alle GrSfien erfolgen muss. Erf indungsgemafi wurde erkannt, 
dass ein Teil der fehlenden Information „ignoriert* werden 
kann. Anders ausgedruckt bedeutet dies, dass nicht versucht 
wird, etwas tiber eine Zuf allsvariable Y zu lernen aus Daten, 
in denen keine Information tiber die Zuf allsvariable Y (einem 
Knoten Y) enthalten ist oder dass nicht versucht. wird, etwas 
Uber die Zusammenhange zwischen zwei Zuf allsvariablen Y und X 
(zwei Knoten Y und X) aus Daten, in denen keine Information 
uber die Zuf allsvariablen Y und X enthalten ist. 

Damit wird nicht nur der numerische Aufwand zur Durchftihrung 
des EM-Lernverfahrens wesentlich reduziert, sondern es wird 
ferner erreicht, dass das EM-Lernverf ahren schneller 
25 konvergiert. Ein zusatzlicher Vorteil ist darin zu sehen, 
dass statistische Modelle mittels dieser Vorgehensweise 
leichter dynamisch aufbauen lassen, d.h. wahrend des 
Lernprozesses kOnnen leichter Variablen (Knoten) in einem 
Netz, dem gerichteten Graphen, erg&nzt werden. 

30 

Als anschauliches Beispiel far das erf indungsgemafi e Verfahren 
wird angenommen, dass ein statistisches Modell Variablen 
enthalt, die beschreiben, welche Bewertung ein Kinobesucher 
einem Film gegeben hat. Fttr jeden Film gibt es eine Variable, 
35 wobei jeder Variable eine Mehrzahl von Zustanden zugeordnet 
ist, wobei jeder Zustand jeweils einen Bewertungswert 
reprasentiert . Fur jeden Kunden gibt es einen Datensatz, in 
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dem gespeichert ist, welcher Film welchen Bewertungswert 
erhalten hat. Wird ein neuer Film angeboten, so fehlen 
anfangs die Bewertungswerte ftir diesen Film. Mitt els der 
neuen Variante des EM-Lernverf ahrens ergibt sich nunmehr die 
Moglichkeit, das EM-Lernverf ahren bis zu dem Erscheinen des 
neuen Films nur mit den bis dorthin bekannten Filmen 
durchzuftihren, d.h. den neuen Film (d.h. allgemein den neuen 
Knoten in dem gerichteten Graphen) zunachst zu ignorieren. 
Erst mit Erscheinen des neuen Films wird das statistische 
Modell urn eine neue Variable (einen neuen Knoten) dynamisch 
erganzt und die Bewertungen des neuen Films werden 
berticksichtigt . Die Konvergenz des Verf ahrens im Sinne der 
log Likelihood ist dabei noch immer gewahrleistet; das 
Verf ahren konvergiert sogar schneller. 

Im Folgenden wird erlautert, unter welchen Bedingungen 
fehlende Inf ormationen nicht berucksichtigt werden mussen. 

Zur Erlauterung der Vorgehensweise wird folgende Notation 
verwendet. Mit H wird ein versteckter Knoten bezeichnet. Mit 
O = {d 1 , O 2 , ... , 0 M | wird ein Satz von M beobachtbaren Knoten in 
dem gerichteten Graphen des statistischen Modells bezeichnet. 

Es wird ohne Einschrankung der Allgemeingtiltigkeit im 
Folgenden ein Bayesianisches Wahrscheinlichkeitsmodell 
angenommen, welches gemafi folgender Vorschrift faktorisiert 
werden kann: 



Es ist in diesem Zusammenhang anzumerken, dass die 
beschriebene Vorgehensweise auf jedes statistische Modell 
anwendbar ist, und nicht auf ein Bayesianisches 
Wahrscheinlichkeitsmodell beschrankt ist, wie spSter noch im 
Detail dargelegt wird. 




(2) 



7C = 1 
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Mit Grofibuchstaben werden im Weiteren Zuf allsvariablen 
bezeichnet, wohingegen mit einem Kleinbuchstaben eine Instanz 
einer jeweiligen Zuf allsvariable bezeichnet wird. 

Es wird ein Datensatz mit N Datensatzelementen {o^, i = 1, ... , n} 
angenommen, wobei ftir jedes Datensatzelement nur ein Teil der 
beobachtbaren Knoten tatsachlich beobachtet wird. Ftir das i- 
te Datensatzelement wird angenommen, dass die Knoten Xi 
beobachtet wird und dass die Beobachtungswerte der Knoten Yi 
fehlen. 



Es gilt also: 



(3) 



Es ist zu bemerken, dass fiir jedes Datensatzelement ein 
unterschiedlicher Satz von Knoten Xj beobachtet werden kann, 
d.h. dass gilt: 

X ± * Xj far i * j. (4) 



Die Indizes fUr vorhandene Knoten werden mit k bezeichnet, 
d.h. X ± = ^f/K = l,...,Ki}, die Indizes ftir nicht vorhandene 

Knoten werden mit X bezeichnet, d.h. Yj_ = X = 1, ...,LiJ. 

Im Falle eines Bayesianischen Netzes weist das ubliche EM- 
Lernverf ahren die folgenden Schritten auf, wie oben schon 
kurz dargestellt: 

1) E-Schritt 

Das Verfahren wird mit „leeren* Tabellen SS(h) und 
ssjp 7 *, Ii)i = 1, ...,M (initialisiert mit „Nullen* gestartet, urn 
darauf basierend die Sch&tzungen (Sufficient Statistics- 
Werte) zu akkumulieren. FUr jedes Datensatzelement £i werden 
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die a posteriori Verteilung P^-Jf^r den versteckten Knoten 
H sowie die a posteriori Verbund-Verteilung 
jeden der nicht vorhandenen Knoten Yi zusammen mit dem 
versteckten Knoten H berechnet. 

Ftir jedes Datensatzelement i werden die Schatzungen fur das 
statistische Modell akkumuliert gemafi folgenden Vorschrif ten: 

SS(H) += S P (H|xi), (5) 

i 

Ss(x* = x£, h) + = K H |^i)' V vorhandenen Knoten X* , (6) 

Ss(y^ f h) += p(h, Y i^i) V nicht vorhandenen Knoten Y^ . 

(7) 

Mit dem Symbol += wird die Aktualisierung, d.h. die 
Akkumulation der Tabellen ftir die Schatzungen gemafi den 
Werten der jeweiligen „rechten Seite* der Gleichung 
bezeichnet. 

2) M-Schritt 

In dem M-Schritt werden die Parameter ftir alle Knoten gemafi 
folgenden Vorschrif ten aktualisiert : 

P(H) oc SS(H), (8) 

p(o*|h) oc ss\p n ,n), (9) 

wobei mit dem Symbol oc angegeben wird, dass die 
Wahrscheinlichkeits-Tabellen beim ttbertragen von SS auf P zu 
normieren sind. 



Gemafi dem EM-Lernverf ahren werden die Erwartungswerte ftir die 
nicht vorhandenen Knoten Yi berechnet und entsprechend den 
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Sufficient Statistics-Werten fur diese Knoten gemafi 
Vorschrift (7) aktualisiert . 

Andererseits ist das Berechnen und Aktualisieren der Verbund- 
Verteilung p(h, Y^lxJ fur alle Knoten e Y ± sehr 
rechenaufwendig. Ferner ist das Aktualisieren der Verbund- 
Verteilung p(h, Y^x^) ein Grund fur das langsame Konvergieren 
des EM-Lernverfahrens, wenn ein grofier Teil an Information 
f ehlt . 

Angenommen, die Tabellen werden mit Zuf allszahlen 
initialisiert, bevor das EM-Lernverf ahren gestartet wird. 

In diesem Fall entspricht die Verbund-Verteilung Y^|x ± ) im 
Wesentlichen diesen Zuf allszahlen im ersten Schritt. Dies 
bedeutet, dass die initialen Zuf allszahlen in den Sufficient 
Statistics-Werten berticksichtigt werden gemafi dem Verhaltnis 
der fehlenden Information bezogen auf die vorhandenen 
Information. Dies bedeutet, dass die initialen Zuf allszahlen 
in jeder Tabelle nur gemafi dem Verhaltnis der fehlenden 
Information bezogen auf die vorhandenen Information 
„gel6scht ,R werden. 

Im Folgenden wird bewiesen, dass ftir den Fall eines 
Bayesianischen Netzes als statistisches Modell der Schritt 
gemafi Vorschrift (7) nicht notwendig ist und somit 
weggelassen bzw. tibersprungen werden kann. 

Die Log-Likelihood des Bayesianischen Netzes als 
statistisches Modell ist gegeben durch: 

L[P]= SlogpfaJ. U0) 
i=l 
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FUr frei vorgegebene Tabellen B^-J, welche hinsichtlich dem 
Knot en H normiert sind, ergibt sich fur die Log-Likelihood: 



N 

L[P] = £ B(h|x ± ) log P(x ± ) 



i=l 

= |ZB(hk)iog^ 

= Z Z B ( h k) lQ g h ) - Z Z B ( h k) 1o< * p ( h k) 

i=lh i=lh 

5 

Die Summe ^ bezeichnet die Summe uber alle Zustande h des 
h 

Knotens H. 

Unter Verwendung der f olgenden Def initionen fur r[p, b] und 
10 h[P/ b] : 

Rfr B] = Z Z B ( h Ni) lQ 9 p fei' h ) ( 12 } 

i=lh 

h[p, b] = Z Z B ( h Ni) lo ^ p ( h ^i) ( 13 > 

i = lh 

15 

ergibt sich fur die Log-Likelihood gemafi Vorschrift (11) : 
L[P] = R[p,b] - H[P,B]. (14) 

20 

Allgemein gilt: 

H[P, B] <, h[p, P], ( 15 > 



25 da h[p, p] - h[p, b] die nicht-negative Kreuzentropie zwischen 
pfhjx-jj und B^jxi) darstellt. 
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In dem t-ten Schritt wird das aktuelle statistische Modell 
iuit P^) bezeichnet. Ausgehend von dem aktuellen 
statistischen Modell P^O des t-ten Schrittes wird ein neues 
statistisches Modell p( t+1 )konstruiert derart, dass gilt: 

R^( t+1 ) / p( fc )] > R^pWj. (16) 

Es gilt: 



= R 
= RIP 

> R 
= LP' 



p( t+1 ), B ] - H^ t + 1 ), b] 
(t + l) ;P (t)]. H ^(t + l), P (t)] 

(t)] 



Die erste Zeile gilt allgemein fUr alle B (vergleiche 
Vorschrift (14)). Die zweite Zeile der Vorschrift (17) 
insbesondere fur den Fall, dass gilt: 



B 



= P (t). (18) 



Die dritte Zeile gilt aufgrund Vorschrift (15) . Die letzte 
Zeile von Vorschrift (17) entspricht wiederum 
20 Vorschrift (14) . 

Somit ergibt sich, dass fur den Fall R^+l), P^J > R^H P (t) ] 
sicher gilt: 

25 L^ t + 1 )] > 4=00]. (19) 

Es ist auf den Unterschied zu dem Standard-EM-Lernverfahren 
hinzuweisen [2], bei dem der R-Term definiert ist gemaB 
folgender Vorschrift: 
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R S tan dard [P/ B] = ^ £ h |x.)log p(x ± , y., h). (20) 

i = lh, y ± 

Es ist anzumerken, dass in dem Argument von P und B in der 
obigen Vorschrift (20) im Unterschied zu der Definition 
entsprechend den Vorschriften (12) und (13) auch die 
fehlenden GrSfien y auftreten. 

Eine Sequenz von EM-Iterationen wird gebildet derart, dass 
gilt : 

R S tan dard^t+l^ p (t)J > R S tan dard^ ) (t) / p (t)j a {21) 

Bei dem erf indungsgemaiien Lernverf ahren wird fUr den Fall 

eines Bayesianischen Netzes eine Sequenz von EM-Iterationen 
derart gebildet, dass gilt: 

R^(t + l),p(t)]> R^(t) /P (t)]. (16) 

Nun wird gezeigt, dass die auf R, definiert gemafi Vorschrift 
(12), zu dem oben beschriebenen Lernverf ahren fuhrt, bei dem 
Vorschrift (7) tibersprungen wird, Bei einem gegebenen 
aktuellen statistischen Modell zu einer Iteration t ist 

es das Ziel des Verfahrens, ein neues statistisches Modell 
pV t + J 7 in der Iteration t+1 zu berechnen, indem 
bezuglich P optimiert wird. Unter Verwendung der 
Faktorisierung gemafi Vorschrift (2) ergibt sich: 



k * (t) ] = IE p (t) (^i) p(h) + E Z Z * (t %i) p ( x i l h ) • 



I 

i=lh i = lh k=1 



(22) 



Eine Optimierung von R in Bezug auf das Modell P filhrt zu dem 
erfindungsgemafien Verf ahren. Der erste Term ftthrt zu der 



WO 2004/044772 




:P2003/011655 



47 

Standard-Aktualisierung der p(h) gemafi den Vorschriften (5) 
und (7) . 

Mit 

SS(h) S J P (t) (h|xi) log P(h) (23) 
i=l 

ergibt sich der erste Term von Vorschrift (22) zu 

£ Jptofc^loglKh) = £ss(h)logP(h), (24) 
h i=l h 

was im Wesentlichen der Kreuzentropie zwischen SS(h) und p(h) 
entspricht. Somit ist das optimale p(h) durch SS(h) gegeben. 
Dies entspricht dem M-Schritt gemafi Vorschrift (8) . 

Der zweite Term von Vorschrift (22) ftihrt zu einer EM- 
Aktualisierung fur die Tabellen der bedingten 
Wahrscheinlichkeiten p(o w |h), wie mittels der Vorschriften (6) 
und (9) beschrieben. Urn dies zu veranschaulichen werden alle 
die Terme in R gesammelt, welche abhangig sind von P^h). 
Diese Terme sind gegeben gemafi folgender Vorschrift: 

2 2 p(t) ( h k) lQ g p ( o7C l h ) ■ {25) 

h i=l 

N 

Die Summe 2 bezeichnet die Summe uber alle Datenelemente 
i=l 
0 % <=X ± 

i in dem Datensatz, wobei O einer der beobachteten Knoten 
ist, d-h. bei dem gilt: 
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O* € X ± - (26) 



Zusaromenfassend kann der obige Ausdruck (25) als die 
Kreuzentropie zwischen zlp^n) und den Sufficient Statistics- 
Werten, welche gemafi Vorschrift (6) akkumuliert werden, 
interpretiert werden. Es ist somit nicht erf orderlich, eine 
Aktualisierung gemafi Vorschrift (7) vorzusehen. Dies ist auf 

N *i 
die Summe ^ in Vorschrift (25) bzw. auf die Summe 2j 

i=l K = 1 



in Vorschrift (22) zurttckzufUhren. Diese Summe berticksichtigt 
nur die beobachteten Knoten, im Gegensatz zu der Definition 
von R standard gemafc Vorschrift (20), in der auch die nicht 
beobachteten Knoten Yi berUcksichtigt werden. 

Im Folgenden wird in einem allgemeingultigeren Fall die 
Gttltigkeit der Vorgehensweise, nicht beobachtete Knoten im 
Rahmen der Aktualisierung der Sufficient Statistics Tafeln 
nicht zu berticksichtigen, dargelegt, womit gezeigt wird, dass 
die Vorgehensweise nicht auf ein so genanntes Bayesianisches 
Netz beschrankt ist. 

Es wird ein Satz von Variablen Z = {a 1 , Z 2 , ... , Z M } angenommen. 
Es wird ferner angenommen, dass das statistische Modell auf 
folgende Weise f aktorisierbar ist: 



ego - n^hki (27) 



wobei mit fj |z°] die ^ltern* -Knoten des Knoten Z° in dem 

Bayesianischen Netz bezeichnet werden. Ferner wird fur jeden 
Knoten Z ein Datensatz {z^, i = 1/ ... , n} mit N 
Datensatzelementen angenommen. Wie schon oben angenommen, 
wird auch in diesem Fall in jedem der N Datensatzelemente ein 
nur ein Teil der Knoten Z beobachtet. Fur das i-te 
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Datensatzelement wird angenommen, dass die Knoten Xi 
beobachtet werden; die Knoten Xi werden nicht beobachtet und 
es gilt: 

Z = ^ u Xi . (28) 

Fttr jedes der N Datensatzelemente werden die nicht 
beobachteten Knoten Xi in zwei Untermengen Hi und Yi 
aufgeteilt derart, dass keiner der Knoten in den Mengen Xi 
und Hi ein abhangiger, d.h. nachf olgender Knoten („Kinder*- 
Knoten) eines Knotens in der Menge Yi ist. Anschaulich 
bedeutet das, dass Yi einem Zweig in einem Bayesianischen 
Netz entspricht, zu dem es keine Inf ormationen in den Daten 
gibt . 

Somit ergeben sich die Verbund-Verteilungen fur die Knoten Xi 
und Hi gemafi f olgender Vorschrift: 

XeXi HeHi 
1) E-Schritt 

Ftir jeden Knoten Z werden mit Null-Werten initialisierte 
Tabellen ss(z, Y[ [z]) gebildet bzw. bereitgestellt . Fur jedes 

Datensatzelement i in dem Datensatz werden die a posteriori 
Verteilung p(z, Y[ IX^i = £i) berechnet und die Sufficient 
Statistics-Werte gemafi folgender Vorschrift akkumuliert fUr 
jeden Knoten Z e Xj_ und Z e : 

ss (z, n 0 + = n N*i = 2si) • (30) 

Die Sufficient Statistics-Werte der Tabellen, welche den 
Knoten in Xi zugeordnet sind, werden nicht aktualisiert . 
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Die Parameter (Tabellen) aller Knoten werden gemali folgender 
Vorschrift aktualisiert : 

«(*°ln H * ss ^°' n H- (3i) 

Anschaulich kann die Erfindung darin gesehen werden, dass ein 
breiter und einfacher (im Allgemeinen jedoch allerdings 
approximativer) Zugang zu der Statistik einer Datenbank 
(bevorzugt tlber das Internet) durch Bildung statistischer 
Modelle fUr die Inhalte der Datenbank geschaffen wird. Somit 
werden die statistischen Modelle zur „Remote Diagnose*, zur 
so genannten „Remote Assistance* Oder zum „Remote Research* 
tlber ein Kommunikationsnetz automatisch versendet. Anders 
ausgedrUckt wird „Wissen* in Form eines statistischen Modells 
kommuniziert und versendet. Wissen ist haufig Wissen uber die 
Zusammenhange und wechselseitigen Abhangigkeiten in einer 
Domane, beispielsweise liber die Abhangigkeiten in einem 
Prozess. Ein statistisches Modell einer Domane, welches aus 
den Daten der Datenbank gebildet wird, ist ein Abbild all 
dieser Zusammenhange. Technisch stellen die Modelle eine 
gemeinsame Wahrscheinlichkeitsverteilung der Dimensionen der 
Datenbank dar, sind also nicht auf eine spezielle 
Aufgabenstellung eingeschrankt, sondern stellen beliebige 
Abhangigkeiten zwischen den Dimensionen dar. Komprimiert zu 
dem statistischen Modell l&sst sich das Wissen uber eine 
Domane sehr einfach handhaben, versenden, beliebigen Nutzern 
bereitstellen, etc . 

Die Auflosung des Abbildes bzw. des statistischen Modells 
kann entsprechend den Anf orderungen des Datenschutzes oder 
den BedUrfnissen der Partner gewShlt werden. 
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1998, Seiten 371 - 405 

[2] M.A. Tanner, Tools for Statistical Inference, Springer, 
New York, 3. Auflage, 1996, Seiten 64 - 135 

[3] Radford M. Neal und Geoffrey E. Hinton, A View of the EM 
Algorithm that Justifies Incremental, Sparse and Other 
Variants, M.I. Jordan (Editor), Learning in Graphical 
Models, Kulwer, 1998, Seiten 355 - 371 

[4] D. Heckermann, Bayesian Networks for Data Mining, Data 
Mining and Knowledge Discovery, Seiten 79 - 119, 1997 

[5] Reimar Hofmann, Lernen der Struktur nichtlinearer 

Abhangigkeiten mit graphischen Modellen, Dissertation an 
der Technischen Universitat MUnchen, Verlag: 
dissertation.de, ISBN: 3-89825-131-4 
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Patentansprtiche 

1. Verfahren zum rechnergesttttzten Bereitstellen von 

Datenbankinformation einer ersten Datenbank, 
5 • bei dem far die erste Datenbank ein erstes statistisches 
Modell gebildet wird, welches die statistischen 
Zusammenh&nge der in der ersten Datenbank enthaltenen 
Datenelemente reprasentiert, 

• bei dem das erste statistische Modell in einem Server- 
10 Computer gespeichert wird, 

• bei dem das erste statistische Modell von dem Server- 
Computer tiber ein Kommunikationsnetz zu einem Client- 
Computer tibertragen wird, 

o bei dem das empfangene erste statistische Modell von dem 
15 Client-Computer weiterverarbeitet wird. 



2. Verfahren gemaii Anspruch 1, 

bei dem unter Verwendung des ersten statistischen Modells und 
Datenelementen einer in dem Client-Computer gespeicherten 
2 0 zweiten Datenbank ein statistisches Gesamt -Modell gebildet 
wird, welches zuiaindest einen Teil der in dem ersten 
statistischen Modell und in der zweiten Datenbank enthaltenen 
statistischen Information aufweist. 



25 3. Verfahren gem&fi Anspruch 1, 

• bei dem ftir eine zweite Datenbank ein zweites 
statistisches Modell gebildet wird, welches die 
statistischen Zusammenhange der in der zweiten Datenbank 
enthaltenen Datenelemente reprasentiert, 

30 o bei dem das zweite statistische Modell Uber das 

Kommunikationsnetz zu dem Client-Computer tibertragen 
wird , 

• bei dem unter Verwendung des ersten statistischen 
Modells und des zweiten statistischen Modells von dem 

35 Client-Computer ein statistisches Gesamt -Modell gebildet 

wird, welches zumindest einen Teil der in dem ersten 
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statistischen Modell und in dem zweiten statistischen 
Modell enthaltenen statistischen Information aufweist. 

4. Verfahren gemaii Anspruch 3, 

• bei dem das zweite statistische Modell in einem zweiten 
Server-Computer gespeichert wird, 

• bei dem das zweite statistische Modell von dem zweiten 
Server-Computer tiber ein Kommunikationsnetz zu dem 
Client-Computer ttbertragen wird. 

5. Verfahren gemaJJ einem der Ansprtlche 1 bis 4, 
bei dem mindestens eines der statistischen Modelle mittels 
eines skalierbaren Verfahrens gebildet wird, mit dem der 
Kompressionsgrad des statistischen Modells verglichen mit den 
in der jeweiligen Datenbank enthaltenen Datenelementen 
einstellbar ist. 

6. Verfahren gemafi einem der Ansprtiche 1 bis 5, 
bei dem mindestens eines der statistischen Modelle mittels 

20 eines EM-Lernverf ahrens oder mittels eines 

gradientenbasierten Lernverf ahrens gebildet wird. 

7. Verfahren gemaB einem der Ansprtlche 1 bis 6, 

bei dem die erste Datenbank oder/und die zweite Datenbank 
25 Datenelemente aufweist/aufweisen, welche mindestens eine 
technische Anlage beschreiben. 

8. Verfahren gemaii Anspruch 7, 

bei dem die die mindestens eine technische Anlage 
30 beschreibenden Datenelemente zumindest teilweise an der 

technischen Anlage gemessene Werte darstellen, welche das 
Betriebsverhalten der technischen Anlage beschreiben. 



10 



15 



35 



9. Verfahren zum rechnergesttitzten Bilden eines statistischen 
Modells einer Datenbank, welche eine Vielzahl von 
Datenelementen aufweist, 
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• bei dem ein EM-Lernverf ahren auf die Datenelemente 
durchgefuhrt wird, so dass zu einem vorgebbaren 
gerichteten Graph statistische Zusammenhange zwischen 
den Datenelementen ermittelt werden, 

5 • wobei der gerichtete Graph Knoten und Kanten aufweist, 

• wobei die Knoten vorgebbare beobachtbare Datenbank- 
Zust^nde und nicht beobachtbare Datenbank- Zustande 
beschreiben, 

• bei dem im Rahmen des EM-Lernverf ahrens nur die 

10 Erwartungswerte ermittelt werden zu den beobachtbaren 

Datenbank- Zustanden sowie zu den nicht beobachtbaren 
Datenbank-Zustanden, deren Eltern-Datenbank-Zustande 
beobachtbare Datenbank-Zustande sind. 

10, Computer-Anordnung zum rechnergestutzten Bereitstellen 
von Datenbankinformation einer ersten Datenbank, 

• mit einem Server-Computer, in dem ein erstes 
statistisches Mode 11/ welches fttr eine erste Datenbank 
gebildet ist, gespeichert ist/ wobei das erste 
statistische Modell die statistischen Zusammenhange der 
in der ersten Datenbank enthaltenen Datenelemente 
represent iert, 

• mit einem mit dem Server-Computer mittels eines 
Koramunikationsnetz gekoppelten Client-Computer, der 
eingerichtet ist zur Weiterverarbeitung des von dem 
Server-Computer tiber das Kommunikationsnetz zu dem 
Client-Computer ubertragenen ersten statistischen 
Modells . 

30 11. Computer-Anordnung gemali Anspruch 10, 

o bei der in dem Client-Computer eine zweite Datenbank mit 
Datenelementen gespeichert ist, 

• wobei der Client-Computer eine Einheit zum Bilden eines 
statistischen Gesamt -Modells unter Verwendung des ersten 

35 statistischen Modells und den Datenelementen der zweiten 

Datenbank, aufweist, wobei das statistische Gesamt- 
Modell zumindest einen Teil der in dem ersten 
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statistischen Modell und in der zweiten Datenbank 
enthaltenen statistischen Information aufweist, 

12. Comput e r-Ano r dnung gemafi Anspruch 10, 

• mit einem zweiten Server-Computer, in dem ein zweites 
statistisches Modell, welches fttr eine zweite Datenbank 
gebildet ist, gespeichert ist, wobei das zweite 
statistische Modell die statistischen Zusammenhange der 
in der zweiten Datenbank enthaltenen Datenelemente 
reprasentiert, 

• wobei der Client-Computer mittels des 
Koramunikationsnetzes mit dem zweiten Server-Computer 
gekoppelt ist, 

© wobei der Client-Computer eine Einheit zum Bilden eines 
statistischen Gesamt -Model Is unter Verwendung des ersten 
statistischen Modells und des zweiten statistischen 
Modells, aufweist, wobei das statistische Gesamt -Modell 
zumindest einen Teil der in dem ersten statistischen 
Modell und in dem zweiten statistischen Modell 
enthaltenen statistischen Information aufweist. 
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